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数据 仓库 为 企业 和 组 织 提供 了 收集 存储 和 分 析 海 量 业务 数据 的 必要 策略 。 随 着 业务 活动 
的 日 益 增长 ， 数 据 仓库 领域 变 得 越 来 越 重要 。 本 书 被 誉 为 数据 仓库 的 “圣经 ”， 从 1990 年 第 1 
版 出 版 起 ， 不 仅 带动 了 数据 仓库 行业 的 发 展 ， 而 且 至 今 仍然 是 数据 仓库 方面 的 优秀 入 门 读物 。 
第 4 版 涵盖 了 数据 仓库 最 新 技术 ， 保 持 了 在 这 一 领域 的 先锋 地 位 。 

纵 观 数据 仓库 系统 的 基本 组 成 部 分 ， 读 者 会 体验 到 数据 仓库 设计 方法 的 更 新 ;各 种 数据 仓 
库 的 迁移 策略 以 及 应 用 在 装载 、 索 引 和 数据 管理 方面 的 技术 。 本 书 为 读者 提供 了 数据 仓库 领域 
的 最 新 进展 。 


”本 书 新 增 的 内 容 : 
®@ 在 数据 仓库 中 处 理 非 结构 化 数据 的 方法 
®@ 在 各 种 不 同 的 存储 介质 上 存储 数据 的 方法 
e@ 关系 型 数据 库 设计 和 多 维 数据 库 设计 的 对 比 
@ 在 规划 数据 仓库 项 目 时 如 何 度量 投资 回报 
@ 探索 更 高 级 的 研究 主题 ， 包 括 数据 的 监控 与 测试 





。]]。 是 世界 公认 的 “数据 仓库 之 父 ”， 是 数据 仓库 及 
Wllam H. Inmon 其 相关 技术 网 站 www .bilinmon.com 的 合作 伙伴 ， 
者 | 是 “企业 信息 工厂 ”的 创造 者 之 一 。 他 一 直 致力 于 数据 库 和 数据 仓库 技术 方面 的 研究 ， 在 数 
据 管理 和 数据 仓库 技术 方面 以 及 数据 处 理 的 管理 方面 撰写 了 40 多 本 著作 ， 发 表 过 600 多 篇 学 
简 ，” 术 论 文 ， 并 且 经 党 应邀 在 技术 和 学 术 会 议 上 演讲 。 
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本 书 系 统 讲 述 数据 仓库 的 基本 概念 、 基 本 原理 以 及 建立 数据 仓库 的 方法 和 过 程 。 主 
要 内 容 包括 : 决策 支持 系统 的 发 展 、 数 据 仓库 环 境 结构 、 数 据 仓库 设计 、 数 据 仓库 粒度 
划分 、 数 据 仓 库 技 术 、 分 布 式 数 据 仓 库 、EIS 系 统 和 数据 仓库 的 关系 、 外 部 和 非 结构 化 
数据 与 数据 仓库 的 关系 、 数 据 装载 问题 、 数 据 仓 库 与 Web、ERP 与 数据 仓库 以 及 数据 仓 
库 设 计 的 复查 要 月 。 

本 书 是 数据 仓库 之 父 撰写 的 关于 数据 仓库 的 最 权威 著作 ， 既 可 作为 相关 专业 的 研究 
生 教材 ， 也 是 数据 仓库 的 研究 、 开 发 和 管理 人 员 的 必 备 指南 。 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 双 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 生 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 入 选 、 移 译 国外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall，Addison-Wesley，McGraw-Hill，Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 杜 选 出 Tanenbaum，Stroustrup ，Kernighan ， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 此 力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 日 碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 和 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原 版 书库 ”; 同时 ， 引 进 全美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 
“全 美 经 典 学 习 指导 系列 "。 为 了 保证 这 三 套 从 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科 技 太 学、 哈尔滨 工业 大 学 、 西 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 出 大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工 学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 " ， 为 我 们 提供 选 题 意 见 和 出 版 监督 。 





IV 


这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.，Stanford，U.C. Berkeley ，C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 训 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 


专家 指导 委员 会 


王 丙 
吕 建 
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译 者 序 


计算 机 网 络 与 数据 库 技 术 的 迅速 发 展 和 广泛 应 用 ， 使 得 企业 管理 进入 一 个 某 新 的 时 代 。 
广大 基层 管理 人 员 摆 脱 了 繁重 的 制 表 业务 和 数据 处 理工 作 ， 管 理工 作 进一步 规范 化 ， 企 业 建 
立 了 各 种 在 线 事务 处 理 信息 系统 ， 对 各 种 日 常 业务 处 理 提供 了 有 效 的 支持 。 然 而 ， 面 对 当今 
竞争 日 趋 滞 烈 与 瞬息 万 变 的 市 场 ， 各 级 管理 人 员 人 迫切 需要 根据 企业 的 现状 和 历史 数据 做 出 判 
断 和 决策 。 因 此 ， 各 级 管理 人 员 希 望 能 够 从 企业 信息 系统 中 获取 有 效 的 、 一 致 的 决策 支持 信 
息 ， 及 时 准确 地 把 握 市 场 变化 的 脉搏 ， 做 出 正确 有 效 的 判断 和 抉择 。 也 就 是 说 ， 数 据 处 理 的 
重点 应 该 从 传统 的 业务 处 理 扩展 到 在 线 分 析 处 理 ， 并 从 中 得 到 面向 各 种 主题 的 统计 信息 和 决 
策 支 持 信 息 。 随 着 企业 事务 处 理 系 统 的 运行 和 建立 ， 数 据 量 越 来 越 大 ， 企 业 数据 源 越 来 越 多 。 
这 种 需求 就 比 以 往 任何 时 候 都 更 加 迫切 ， 也 更 加 难于 实现 。 

数据 仓库 技术 就 是 针对 上 述 问 题 而 产生 的 一 种 技术 解决 方案 ， 它 是 基于 大 规模 数据 库 的 
决策 支持 系统 环境 的 核心 。 正 如 本 书 作 者 W. H. Inmon 所 定义 的 ， 数 据 仓库 是 一 个 面向 主题 的 、 
集成 的 、 永 和 久 的 且 随 时 间 不 断 变 化 的 数据 集合 ， 用 于 支持 管理 层 的 决策 。 本 书 详尽 地 讲述 了 
数据 仓库 的 基本 概念 、 基 本 原理 ， 以 及 建立 数据 仓库 的 方法 和 过 程 。 主 要 内 容 包括 决策 支持 
系统 的 发 展 、 数 据 仓 库 环 境 结构 、 数 据 仓 库 设 计 、 数 据 仓库 粒度 划分 、 数 据 仓库 技术 、 分 布 
式 数 据 仓 库 、EIS 系 统 和 数据 仓库 的 关系 、 外 部 和 非 结构 化 数据 与 数据 仓库 的 关系 、 数 据 装载 
问题 、 数 据 仓库 与 Web、ERP 与 数据 仓库 以 及 数据 仓库 设计 的 复查 要 且 。 本 书 主要 面向 数据 仓 
库 的 开发 者 、 管 理 者 、 设 计 者 、 数 据 管理 员 、 数 据 库 管 理 员 以 及 其 他 相关 人 员 ， 对 于 计算 机 
专业 的 本 科 生 和 研究 生 也 有 重要 的 参考 价值 。 

我 们 研究 小 组 对 数据 仓库 技术 和 数据 挖掘 技术 进行 了 很 长 时 间 的 研究 ， 并 翻译 了 一 些 相 
关 文 献 。1999 年 翻译 并 出 版 了 本 书 的 第 2 版 ，2003 年 翻译 并 出 版 了 本 书 的 第 3 版 ， 都 得 到 了 社 
会 各 界 的 好 评 。 为 了 反映 数据 仓库 技术 的 进展 ， 本 书 作者 在 不 断 地 充实 和 修改 其 著作 。 应 出 
版 社 的 要 求 ， 我 们 承担 了 第 4 版 的 翻译 工作 ， 并 推荐 给 读者 。 随 着 这 几 年 我 们 研究 的 进展 ， 对 
数据 仓库 技术 和 工程 有 了 更 为 深入 的 理解 。 为 此 ， 我 们 对 数据 仓库 所 涉及 的 术语 的 译 法 重新 
进行 了 规范 ， 在 翻译 了 新 增 和 修改 内 容 的 同时 ， 将 全 部 原 有 内 容重 新 逐 字 校正 了 一 遍 ， 更 正 
了 以 前 译文 中 的 一 些 错误 ， 使 语言 更 加 准确 、 通 顺 ， 便 于 读者 理解 。 本 书 的 第 1 章 和 第 2 章 由 
范 亚 琼 负责 ， 第 3 章 和 第 4 章 由 草 源 负责 ， 第 5 章 和 第 6 章 由 李 广 群 负责 ， 第 7 章 至 第 13 章 由 山 丹 
负责 ， 第 14 章 至 第 19 章 以 及 词汇 表 由 廉 捷 负责 翻译 ， 杨 迪 参 加 了 第 3 章 的 部 分 翻译 工作 。 本 书 
最 后 的 定稿 与 许多 人 先后 的 辛勤 工作 密切 相关 ， 他 们 是 王 琨 、 王 继 夺 、 董 售 、 刘 告 、 林 友 芳 、 
高 思 宇 、 王 春花 、 宁 云 晖 、 李 晓 武 、 苦 永 华 、 范 星 艳 、 高 宏 彬 、 贾 旭光 、 李 红 松 、 秦 远 辉 等 。 
本 书 由 王 志 海 负责 统一 定稿 ， 由 黄 厚 宽 教 授 和 田 盛 丰 教 授 共同 审定 全 书 。 由 于 译 者 水 平 有 限 ， 
错误 之 处 望 广大 读者 批评 指正 。 
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第 2 版 前 言 


数据 库 及 其 理论 已 经 出 现 好 长 时 间 了 。 早 期 的 数据 库 主 要 是 一 些 独立 的 数据 库 ， 应 用 于 
企业 数据 处 理 的 各 个 方面 一 一 从 事务 处 理 到 批 处 理 ， 再 到 分 析 型 处 理 。 早 期 的 大 多 数 数据 库 
系统 主要 集中 于 操作 型 的 日 常事 务 处 理 。 近 年 来 ， 出 现 了 一 种 更 高 级 的 数据 库 观念 ， 即 一 种 
数据 库 服务 于 操作 型 需求 ， 而 另 一 种 数据 库 服务 于 信息 型 或 分 析 型 需求 。 从 某 种 程度 上 讲 ， 
这 种 数据 库 的 新 颖 思想 是 随 着 个 人 计算 机 技术 、 第 四 代 程 序 设计 语言 (4GL) 技术 以 及 最 终 
用 户 新 需求 的 出 现 而 产生 的 。 

将 操作 型 数据 库 和 信息 型 数据 库 分 离开 ,是 出 于 以 下 原因 : 

* 服务 于 操作 型 需求 的 数据 在 物理 上 不 同 于 服务 于 信息 型 或 分 析 型 需求 的 数据 。 

*。 支 持 操作 型 处 理 的 技术 从 根本 上 不 同 于 支持 信息 型 或 分 析 型 需求 的 技术 。 

* 操作 型 数据 的 用 户 群 体 不 同 于 信息 型 或 分 析 型 数据 所 支持 的 用 户 群 体 。 

*。 操作 型 环境 的 处 理 特 点 与 信息 型 环境 的 处 理 特点 从 根本 上 是 不 同 的 。 

由 于 这 些 原因 (以 及 很 多 其 他 原因 ) ， 当 今 建立 系统 的 方法 是 将 操作 型 处 理 及 其 数据 与 信 
息 型 或 分 析 型 处 理 及 其 数据 分 离开 来 。 

本 书 讨论 分 析 型 的 环境 ， 或 称 为 决策 支持 系统 (DSS) 环境 ， 以 及 在 这 种 环境 中 的 数据 
结构 问题 。 本 书 的 重点 是 讨论 信息 型 和 决策 支持 系统 处 理 的 核心 “数据 仓库 ”( 或 “信息 
仓库 ”)。 

本 书 所 讨论 的 问题 是 面向 管理 者 和 开发 者 的 ， 在 某 些 地 方 也 涉及 技术 问题 。 但 本 书 的 大 部 
分 是 关于 数据 仓库 的 问题 和 技术 。 本 书 旨 在 作为 数据 仓库 设计 者 和 开发 者 的 一 本 指导 性 读物 。 

本 书 出 第 1 版 的 时 候 ， 数 据 库 的 理论 家 们 对 数据 仓库 的 概念 大 加 嘲笑 。 有 一 个 理论 家 说 数 
据 仓 库 技术 将 使 信息 技术 倒退 20 年 。 另 有 人 说 不 应 该 允许 数据 仓库 技术 的 创建 者 在 公共 场合 
发 表 言 论 。 另 外 一 些 学 院 派 的 研究 人 员 宣 称 数据 仓库 技术 根本 就 不 是 什么 新 技术 ， 学 术 界 早 
已 经 知道 数据 仓库 技术 ， 尽 管 那 时 没有 出 书 、 没 有 文章 、 设 有 课程 、 没 有 研讨 会 、 没 有 学 术 
会 议 、 没 有 报告 、 没 有 参考 文献 、 疫 有 论文 、 也 没有 可 用 的 术语 或 概念 。 

本 书 出 第 2 版 的 时 候 ， 整 个 世界 正在 为 互联 网 而 疯狂 。 想 要 成 功 ， 就 要 在 各 种 词 之 前 加 上 
字母 “e"， 如 e-business，e-commerce ，e-tailing 等 。 记 得 一 个 风险 投资 家 说 过 “我 们 现在 有 
了 互联 网 ， 为 什么 还 要 数据 仓库 呢 ? ” 

但 是 数据 仓库 技术 已 经 远 比 那 些 想 把 所 有 数据 放 在 一 个 数据 库 中 的 数据 库 理论 家 们 期 望 
的 要 好 。 数 据 仓库 技术 也 挺 过 了 由 那些 短视 的 风险 投资 家 所 带 来 的 “.com” 灾 难 。 在 技术 常 
被 华尔街 和 Main Street 抛 弃 的 这 个 时 代 里 ， 数 据 仓 库 技 术 从 来 没有 像 现 在 这 人 么 活跃 和 强大 。 
关于 数据 仓库 技术 ， 有 着 各 种 各 样 的 学 术 会 议 、 研 讨 会 、 书 籍 、 文 章 、 咨 询 等 。 更 重要 的 是 ， 
现在 有 很 多 公司 在 做 数据 仓库 。 我 们 还 可 以 发 现 ， 与 大 肆 宣 扬 的 所 谓 新 经 济 不 同 ， 数 据 仓 库 
技术 确 确 实 实在 发 挥 着 作用 ， 尽 管 硅谷 还 在 否认 它 。 








第 3 版 前 言 


本 书 的 第 3 版 预示 着 数据 仓库 技术 更 新 、 更 强大 的 时 代 。 当 今 ， 数 据 仓库 技术 已 经 不 再 是 
纯粹 的 理论 ， 而 是 活生生 的 事实 。 新 技术 已 经 可 以 支持 对 数据 仓库 的 各 种 新 奇 的 需求 。 许 多 
企业 已 经 通过 数据 仓库 运转 它们 的 重要 业务 。 由 于 有 了 数据 仓库 ， 获 取信 息 的 代价 在 急剧 降 
低 。 对 于 混乱 的 遗留 系统 环境 ， 管 理 人 员 最 终 有 了 一 种 可 行 的 解决 方案 。 企 业 第 一 次 拥有 了 
可 用 的 企业 范围 内 的 历史 数据 “存储 方式 "。 整 个 企业 的 数据 集成 真正 成 为 可 能 ， 这 在 多 数 情 
况 下 还 是 第 一 次 。 许 多 企业 正在 学 习 如 何 从 数据 获取 信息 ， 以 获得 竞争 优势 。 简 而 言 之 ， 数 
据 仓库 技术 极 大 地 冲破 了 技术 的 束缚 。 

数据 仓库 容易 使 人 糊涂 的 地 方 在 于 它 是 一 种 体系 结构 ， 而 不 是 一 种 技术 。 这 一 点 使 技术 
人 员 和 风险 投资 家 感到 灰心 ， 因 为 他 们 想 买 的 是 那些 很 好 地 打 成 了 包 的 东西 。 但 是 ， 数 据 仓 
库 本 身 不 会 将 自己 “封装 ”起 来 。 体 系 结构 和 技术 之 间 的 差别 就 像 是 新 墨西哥 州 圣 达 菲 和 砖 
块 之 闻 的 差别 一 样 。 如 果 你 在 圣 达 菲 的 大 街 上 开 着 车 ， 你 就 会 知道 你 是 在 圣 达 非 ， 而 不 是 在 
别 的 什么 地 方 。 每 一 尽 住 宅 、 每 一 座 办 公 楼 、 每 一 家 饭馆 都 有 显著 的 特征 ， 提 醒 着 我 们 “这 
里 是 圣 达 非 "*。 使 圣 达 菲 突显 的 外 观 和 风格 是 建筑 结构 ， 而 这 种 结构 是 由 砖 块 和 裸露 的 横梁 构 
成 的 。 当 然 ， 如 果 没 有 这 些 砖 块 和 横梁 就 没有 圣 达 非 的 各 种 建筑 。 但 是 ， 砖 块 和 横梁 本 身 并 
不 能 构成 结构 。 它 们 是 独立 的 技术 。 就 像 你 在 美国 西南 部 所 有 地 方 和 世界 的 其 他 地 方 都 能 看 
到 砖 块 ， 但 它们 并 不 是 圣 达 非 。 

因此 ， 数 据 仓 库 和 数据 库 及 其 他 技术 之 间 的 关系 ， 就 像 是 体系 结构 和 技术 之 间 的 关系 。 
有 了 这 种 体系 结构 ， 就 有 相应 的 基础 技术 ， 两 者 之 间 有 很 大 的 差别 。 毫 无 疑问 ， 数 据 仓库 和 
数据 库 技 术 之 间 存 在 着 关系 ， 但 是 可 以 确定 的 是 ， 它 们 不 是 同一 种 东西 。 数 据 仓 库 需 要 许多 
不 同 种 类 的 技术 支持 。 

有 了 本 书 的 第 3 版 ， 我 们 知道 什么 东西 管用 ， 什 么 东西 不 管用 。 在 写 第 1 版 的 时 候 ， 我 们 
有 一 些 开 发 和 使 用 数据 仓库 的 经 验 。 但 是 说 真 的 ， 当 时 的 经 验 没 有 现在 多 。 例 如 现在 ， 我 们 
可 以 确切 地 知道 以 下 这 些 内 容 : 

。 数 据 仓库 的 建立 要 采用 不 同 于 应 用 程序 的 开发 方法 ， 不 记 住 这 点 会 带 来 很 大 的 问题 。 

* 数据 仓库 在 根本 上 不 同 于 数据 集 市 。 两 者 不 能 混在 一 起 ， 就 像 油 和 水 一 样 。 

。 数 据 仓 库 能 够 实现 所 承诺 的 功用 ， 而 不 像 许多 被 过 分 宣扬 的 、 之 后 渐渐 消逝 的 技术 一 样 。 

*。 数 据 仓库 中 汇集 了 大 量 的 数据 ， 这 样 就 需要 有 全 新 的 技术 来 管理 大 规模 的 数据 。 

但 是 ， 或 许 数据 仓库 最 吸引 人 的 东西 是 数据 仓库 构成 了 许多 其 他 各 种 形式 处 理 的 基础 。 
可 以 改造 和 重复 使 用 数据 仓库 中 的 各 种 粒度 的 数据 。 如 果 存 在 一 个 关于 数据 仓库 永恒 而 深刻 
的 真理 ， 那 就 是 : 数据 仓库 为 许多 其 他 形式 的 信息 处 理 提 供 了 理想 的 基础 。 这 个 基础 如 此 重 
要 ， 有 许多 原因 ， 比 如 : 

。 真理 只 有 单个 版 本 。 

*， 如果 需 要 ， 可 以 重新 调整 数据 。 

* 可 以 为 新 的 、 未 知 的 应 用 随时 提供 数据 。 

最 后 ， 数 据 仓库 技术 降低 了 企业 获取 信息 的 代价 。 有 了 数据 仓库 ， 获 取 数 据 将 不 再 昂贵 ， 
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数据 访问 也 将 更 加 快捷 。 

数据 库 及 其 理论 已 经 出 现 好 长 时 间 了。 早期 的 数据 库 主 要 是 一 些 独立 的 数据 库 ， 应 用 于 
企业 数据 处 理 的 各 个 方面 一 一 从 事务 处 理 到 批 处 理 ， 再 到 分 析 型 处 理 。 早 期 的 大 多 数 数据 库 
系统 主要 集中 于 操作 型 的 日 常事 务 处 理 。 近 年 来 ， 出 现 了 一 种 更 高 级 的 数据 库 观念 ， 即 一 种 
数据 库 服 务 于 操作 型 需求 ， 而 另 一 种 数据 库 则 服务 于 信息 型 或 分 析 型 需求 。 从 某 种 程度 上 讲 ， 
这 种 数据 库 的 新 颖 思想 是 随 着 个 人 计算 机 技术 、 第 四 代 程 序 设计 语言 (4GL) 技术 以 及 最 终 
用 户 新 需求 的 出 现 而 产生 的 。 将 操作 型 数据 库 和 信息 型 数据 库 分 离开 ， 是 出 于 以 下 原因 : 

* 服务 于 操作 型 需求 的 数据 在 物理 上 不 同 于 服务 于 信息 型 或 分 析 型 需求 的 数据 。 

* 支持 操作 型 处 理 的 技术 从 根本 上 不 同 于 支持 信息 型 或 分 析 型 需求 的 技术 。 

* 操作 型 数据 的 用 户 群体 不 同 于 信息 型 或 分 析 型 数据 所 支持 的 用 户 群体 。 

“操作 型 环境 的 处 理 特点 与 信息 型 环境 的 处 理 特点 从 根本 上 是 不 同 的 。 

由 于 这 些 原 因 (以 及 很 多 其 他 原因 )， 当 今 建立 系统 的 方法 是 将 操作 型 处 理 及 数据 与 信息 
型 或 分 析 型 处 理 及 其 数据 分 离开 来 。 

本 书 讨论 分 析 型 的 环境 ， 或 称 为 决策 支持 系统 (DSS) 环境 ， 以 及 在 这 种 环境 中 的 数据 结 
构 问 题 。 本 书 的 重点 是 讨论 信息 型 和 决策 支持 系统 处 理 的 核心 一 一 数据 仓库 (或 信息 仓库 )。 

什么 是 分 析 型 、 信 息 型 处 理 呢 ? 这 种 处 理 服务 于 决策 支持 过 程 中 的 管理 需求 ， 一 般 称 为 
DSS 处 理 ， 要 在 大 量 的 数据 中 分 析 处 理 探 索 趋势 。 不 同 于 只 查找 1~2 条 数据 记录 《如 操作 型 处 
理 )， 当 DSS 分 析 人 员 进 行 分 析 型 处 理 时 ， 需 要 访问 大 量 的 数据 记录 。 

DSS 分 析 入 员 很 少 修改 数据 。 而 在 操作 型 系统 中 ， 数 据 在 个 体 记 录 层 次 上 经 常 修改 。 在 
分 析 型 处 理 中 ， 需 要 经 常 访问 记录 ， 收 集 来 的 记录 内 容 用 于 分 析 的 和 需要， 但 很 少 或 不 需要 对 
单个 的 记录 进行 更 改 。 

相对 于 传统 的 操作 型 处 理 ， 在 分 析 型 处 理 中 ， 响 应 时 间 的 要 求 大 大 放宽 。 分 析 型 处 理 的 响 
应 时 间 可 以 是 30 分 钟 到 24 小 时 。 这 样 的 响应 时 间 标 准 对 于 操作 型 处 理 而 言 是 一 个 巨大 的 灾难 。 

服务 于 分 析 型 用 户 群 体 的 网 络 比 服务 于 操作 型 用 户 群 体 的 网 络 的 规模 小 得 多 。 通 常情 况 
下 ， 分 析 型 网 络 的 用 户 比 操作 型 网 络 的 用 户 少 很 多 。 

与 应 用 于 分 析 型 环境 的 技术 不 同 ， 操 作 型 环境 中 的 技术 必须 将 技术 本 身 与 数据 和 事务 锁 
定 、 数 据 争 用 、 死 锁 等 因素 结合 起 来 考虑 。 

这 样 ， 在 操作 型 环境 和 分 析 型 环境 之 间 存 在 许多 重大 的 区 别 。 本 书 针对 分 析 型 的 DSS 环 
境 进行 讨论 ， 并 着 重 讨 论 以 下 问题 : 

“数据 的 粒度 。 

“数据 分 区 。 

* 元 数据 ， 

“ 数据 可 信 度 的 缺乏 。 

“DSS 数据 的 集成 。 

"DSS 数据 的 时 间 基 准 。 

* 确定 DSS 数据 的 数据 源 一 一 记录 系统 。 

“数据 迁移 及 方法 。 

本 书 适合 开发 人 员 、 管 理 人 员 、 设 计 人 员 、 数 据 管理 员 、 数 据 库 管 理 员 ， 以 及 其 他 在 现 
代数 据 处 理 环境 中 进行 系统 建造 的 人 员 阅 读 。 另 外 ， 本 书 也 很 适用 于 学 习 信息 处 理 技 术 的 学 
生 。 本 书 有 些 地 方 的 讨论 更 具有 技术 性 。 但 全 书 多 数 部 分 是 关于 数据 仓库 的 问题 和 技术 。 本 
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书 旨 在 作为 数据 仓库 设计 者 和 开发 者 的 一 本 指导 性 读物 。 

本 书 是 有 关 数 据 仓 库 的 系列 丛书 中 的 第 一 本 。 第 二 本 是 《Using the Data Warehouse》 
(Wiley，1994)， 着 重 站 述 建 立 了 数据 仓库 后 所 面临 的 一 些 问题 。 此 外 ， 还 介绍 了 更 大 的 体系 
结构 的 概念 和 操作 型 数据 存储 (ODS ) 的 思想 。 操 作 型 数据 存储 在 体系 结构 上 与 数据 仓库 相似 ， 
两 者 的 区 别 在 于 ODS 仅 适 用 于 操作 型 系统 ， 而 不 适用 于 信息 型 系统 。 该 系列 丛书 的 第 三 本 是 
《Building the Operational Data Store》( Wiley，1999 ) ， 阐 述 什么 是 ODS 以 及 如 何 建造 ODS 。 

数据 仓库 系列 丛书 的 第 四 本 是 《Corporate Information Factory, Third Edition》( Wiley， 
2002 ) 。 该 书 阐述 了 以 数据 仓库 为 中 心 的 更 大 型 的 信息 系统 。 在 很 多 方面 ， 有 关 CIE 的 书 和 有 
关 DW 的 书 是 相辅相成 的 。 有 关 CIF 的 书 着 眼 点 更 高 ， 而 有 关 DW 的 书 则 做 出 了 更 为 具体 的 讨 
论 。 该 系列 丛书 还 包括 《Expjloration Warehousing》(Wiley，2000)。 该 书 阐述 了 使 用 统计 技 
术 对 数据 仓库 中 的 数据 所 进行 的 一 种 特殊 的 处 理 模 式 分 析 。 

无 论 如 何 ， 本 书 都 是 这 一 系列 丛书 的 基石 。 数 据 仓 库 是 其 他 所 有 DSS 处 理 形式 的 基础 。 

也 许 本 书 结尾 引用 的 参考 文献 最 能 雄辩 地 说 明 数 据 仓库 和 企业 信息 工厂 所 更 来 的 进步 。 
本 书 第 1 版 出 版 时 ， 除 了 少数 论文 外 ， 没 有 其 他 书籍 或 白皮书 可 供 参考 引用 。 而 这 本 第 3 版 提 
到 了 许多 书籍 、 论 文 和 白皮书 。 确 实 ，3 引 用 的 参考 文献 只 是 揭示 了 大 量 重要 工作 中 的 一 部 分 。 
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星期 的 数据 库 理 论 认为 所 有 的 数据 都 应 该 装载 在 一 个 公共 的 数据 源 中 。 这 个 想法 不 难得 
出 。 主 文件 是 先 于 数据 库 而 出 现 的 ， 这 些 主 文件 存储 在 顺序 介质 上 ， 为 实现 随 之 而 来 的 各 种 
应 用 而 创建 。 在 主 文件 之 间 根 本 没有 数据 集成 。 因 此 ， 将 数据 集成 为 单一 的 数据 源 一 一 数据 
库 的 理念 得 到 极 大 的 认同 。 

数据 仓库 的 诞生 基于 以 上 这 些 理念 。 数 据 仓库 对 于 那些 赞同 传统 数据 库 理论 的 人 来 说 是 
一 种 智力 上 的 威胁 ， 因 为 数据 仓库 本 自 意 味 着 应 该 建立 不 同 种 类 的 数据 库 。 然 而 ， 建 立 不 同 
种 类 的 数据 库 的 思想 并 不 被 数据 库 理论 学 家 们 所 接受 。 

现在 ， 数 据 仓 库 已 经 被 认为 是 一 种 明智 的 选择 。 基 于 许多 不 同 理由 ， 人 们 相信 数据 仓库 
就 是 所 想 要 的 。 近 期 的 一 项 调查 显示 ， 公 司 用 于 数据 仓库 和 商业 智能 方面 的 开销 超过 了 事务 
处 理 和 在 线 事务 处 理 (OLTP) 方面 ， 这 在 几 年 前 是 不 可 想象 的 。 

数据 仓库 的 成 熟 期 已 经 到 来 。 

本 书 第 4 版 的 问世 恰 逢 时 宣 ， 它 掀起 了 数据 仓库 的 新 浪潮 。 

除了 数据 仓库 中 由 来 已 入 的 概念 外 ， 本 书 第 4 版 还 囊括 了 数据 仓库 的 基础 知识 ， 也 包含 了 
许多 当今 有 关 信 息 基础 框架 的 主题 。 

本 书 中 较为 重要 的 新 主题 是 : 

。 依从 准则 (涉及 Sarbanes Oxley, HIPAA, Basel II 以 及 其 他 问题 ) 

。 近 线 存储 (扩展 数据 仓库 使 其 无 穷 大 ) 

。 多 维 数据 库 设计 

。 非 结构 化 数据 

。 最 终 用 户 〈 他 们 是 谁 ， 他 们 需要 什么 ) 

。ODS 和 数据 仓库 

除了 这 些 新 主题 外 ， 本 版 还 体现 了 更 为 庞大 的 围绕 数据 仓库 所 建立 的 体系 结构 。 

技术 伴随 着 数据 仓库 的 发 展 而 发 展 。 在 数据 仓库 发 展 的 早期 阶段 ，50GB~100GB 的 数据 
量 被 认为 是 一 个 庞大 的 数据 仓库 。 现 在 ， 一 些 数 据 仓 库 已 经 达到 千 万 亿 字 节 的 容量 范围 。 其 
他 技术 包括 多 维 技术 一 一 数据 集 市 和 星 形 连接 方面 的 进展 。 此 外 ， 技 术 的 进步 也 使 得 数据 可 
以 存储 在 非 磁 盘存 储 介 质 之 上 。 

总 而 言 之 ， 技 术 的 进步 使 今天 的 科技 成 果 成 为 可 能 。 没 有 现代 技术 的 发 展 ， 就 不 会 有 数 
据 仓库 的 出 现 。 

本 书 可 供 数 据 仓库 架构 和 系统 设计 师 参 阅 。 最 终 用 户 可 能 发 现 这 本 书 的 有 用 之 处 在 于 全 
面 了 解 有 关 数 据 仓库 的 解释 。 管 理 者 和 学 生 们 也 将 发 现 本 书 的 有 益 之 处 。 
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第 1 章 决策 支持 系统 的 发 展 


古 埃 及 的 象形 文字 主要 是 当时 的 账 房 先生 为 了 记录 别人 从 法 老 多 少 谷子 而 创造 的 ; 罗马 
的 一 些 街道 是 两 千 多 年 前 土木 工程 师 设 计 的 结果 ; 对 考古 发 据 中 在 智利 发 现 的 骨头 的 检验 表 
明 人 类 早 在 一 万 多 年 以 前 就 已 经 开始 使 用 药物 了 ， 当 然 使 用 形式 可 能 很 原始 ; 其 他 许多 专业 
领域 的 产生 和 发 展 也 都 可 以 追溯 到 远古 时 代 。 而 信息 系统 与 处 理 只 不 过 从 20 世 纪 60 年 代 初 期 
才 开始 发 展 ， 如 果 从 这 点 来 看 ， 这 个 领域 当然 是 不 成 熟 的 。 

信息 处 理 的 这 种 不 成 熟 表 现在 诸多 方面 ， 比 如 将 处 理 停 留 在 问题 细节 上 。 有 这 样 一 种 说 
法 ， 如 果 细 节 都 正确 了 ， 结 果 会 自己 出 来 ， 并且 是 正确 的 。 这 就 好 像 是 说 ， 如 果 我 们 知道 如 
何 铺 水 泥 、 如 何 钻 孔 、 如 何 安装 螺母 与 螺栓 ， 就 不 必 操 心 正 在 建造 桥梁 的 外 型 与 用 途 了 。 这 
样 的 观点 会 使 一 个 非常 专业 的 土木 工程 师 发 疯 的 。 因 此 ， 即 使 所 有 细节 都 正确 也 不 一 定 能 保 
证 最 后 产品 就 必然 成 功 。 

数据 仓库 需要 一 个 从 整体 上 着 手 ， 然 后 逐步 解决 具体 细节 问题 的 体系 结构 。 当 然 ， 贯 穿 
于 整个 数据 仓库 始末 的 细节 问题 都 很 重要 ， 但 细节 也 只 有 存在 于 一 个 范围 更 广 的 上 下 文中 才 
是 重要 的 。 

数据 仓库 是 伴随 着 信息 与 决策 支持 系统 的 发 展 过 程 产生 的 。 这 种 宽广 的 视野 将 有 助 于 对 
数据 仓库 有 一 个 更 清晰 的 认识 。 


1.1 演化 


数据 仓库 和 决策 支持 系统 (Decision Support System, DSS ) 处 理 的 起 源 可 以 追 湖 到 计算 
机 与 信息 系统 发 展 的 初期 。 有 趣 的 是 决策 支持 系统 处 理 是 信息 技术 长 期 复杂 演化 的 产物 ， 并 
且 今 天 这 种 演化 仍然 在 继续 进行 着 。 

图 1-1 所 示 为 20 世 纪 60 年 代 初期 到 1980 年 这 一 时 期 信息 处 理 的 演化 过 程 。60 年 代 初 期 ， 计 
算 领 域 的 主要 工作 是 创建 运行 于 主 文件 上 的 单个 应 用 。 这 些 应 用 是 以 报表 处 理 和 程序 为 特征 
的 ， 一 般 是 用 某 种 早期 的 程序 设计 语言 如 Fortran 或 COBOL 编 写 的。 穿孔 卡 和 纸 带 是 当时 常用 
的 存储 介质 。 主 文件 存储 在 廉价 的 适合 于 存放 大 量 数据 的 磁带 上 ， 其 缺点 是 只 能 顺序 访问 。 
在 对 磁带 文件 的 一 遍 操 作 中 ， 真 正 需要 的 记录 可 能 只 有 5% 或 更 少 ,但 为 了 得 到 这 一 小 部 分 记 
录 ， 必 须要 顺序 访问 所 有 的 记录 ， 这 种 情况 十 分 常见 。 此 外 ， 访 问 整 盘 磁带 的 文件 可 能 要 花 
20~30 分 钟 时 间 ， 时 间 长 短 取 决 于 文件 中 的 存储 数据 和 要 进行 的 处 理 。 

大 约 在 20 世 纪 60 年 代 中 期 ， 主 文件 和 磁带 的 使 用 量 迅速 增长 ， 随 之 出 现 了 大 量 宛 余 数据 。 
主 文件 的 迅速 增长 和 数据 的 巨大 元 余 引 发 了 以 下 一 些 严重 的 问题 : 

“更 新 数据 时 需要 保持 数据 的 一 致 性 。 

“ 程序 维护 的 复杂 性 。 

* 开发 新 程序 的 复杂 性 。 

。 支 持 所 有 主 文件 需要 增加 大 量 硬 件 。 

很 快 ， 带 有 存储 介质 固有 缺陷 的 主 文件 系统 就 成 了 信息 处 理 继续 发 展 的 巨大 障碍 。 

可 以 设想 一 下 ， 如 果 我 们 仍然 只 能 用 磁带 作为 存储 介质 的 话 ， 信 息 处 理 领域 现在 会 是 什 
么 样子 ? 这 个 问题 是 很 有 趣 的 。 如 果 除 了 磁带 文件 以 外 没有 别 的 介质 可 以 存储 大 量 数据 ， 那 
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么 我 们 将 永远 不 会 有 大 型 快速 的 预订 系统 、ATM 系 统 等 等 方便 的 设施 。 事 实 上 ， 在 新 型 介质 
上 存储 和 管理 数据 的 能 力 为 支持 一 种 功能 更 强大 的 处 理 类 型 开辟 了 道路 ， 从 而 前 所 未 有 地 将 
技术 人 员 和 商务 人 员 带 到 一 起 来 。 
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单个 数据 库 服务 于 所 有 目的 
图 1-1 体系 化 环境 的 早期 演化 阶段 
1.1.1 直接 存 取 存储 设备 的 出 现 


到 了 1970 年 ， 一 种 新 的 数据 存储 和 访问 技术 出 现 了 。 这 就 是 20 世 纪 70 年 代 出 现 的 磁盘 存 
储 器 ， 或 者 称 之 为 直接 存 取 存储 设备 (Direct Access Storage Device, DASD)。 磁盘 存储 与 磁 
带 存储 的 根本 不 同 在 于 磁盘 上 的 数据 能 够 直接 访问 。DASD 要 访问 第 n+1 条 记录 ， 不 再 需要 先 
顺序 访问 第 1，2，…，n 条 记录 ， 而 是 一 旦 知道 了 第 n+1 条 记录 的 地 址 ， 就 可 以 直接 对 它 进行 
访问 。 并 且 ， 第 n+1 条 记录 的 寻 址 时 间 比 起 扫描 磁带 的 时 间 要 少 得 多 。 事 实 上 ,在 DASD 上 定 
位 一 条 记录 的 时 间 是 以 毫秒 (ms) 来 计量 的 。 

随 着 DASD 的 发 展 ， 出 现 了 一 种 称 为 数据 库 管 理 系 统 (Database Management System， 
DBMS ) 的 新 型 系统 软件 。 这 种 新 型 软件 的 目的 是 使 程序 员 可 以 更 方便 地 在 DASD 上 上 存储 和 访 
间 数 据 。 另 外 ， 它 还 负责 在 DASD 上 存储 数据 、 对 数据 进行 索引 等 等 。 随 着 DASD 和 DBMS 的 





污 赣 支 振 居 统 的 发 展 了 





出 现 ， 解 决 主 文件 系统 中 问题 的 一 种 技术 解决 方案 应 运 而 生 。 伴 随 着 DBMS ， 出 现 了 “数据 
库 ” 的 概念 。 看 一 下 主 文件 系统 所 导致 的 一 片 混乱 以 及 在 它们 中 累积 的 大 量 元 余数 据 ， 就 不 
会 奇怪 为 什么 把 数据 库 定义 为 所 有 处 理工 作 的 单一 数据 源 了 。 

到 了 20 世 纪 70 年 代 中 期 ， 在线 事务 处 理 (Online Transaction Processing, OLTP) 使 得 访问 
数据 可 以 更 快速 地 进行 ， 从 而 为 商业 和 处 理 开 辟 了 一 种 全 新 的 视野 。 采 用 高 性 能 的 在 线 事 务 
处 理 ， 计 算 机 可 用 来 完成 许多 以 前 无 法 完成 的 工作 ， 如 建立 预定 系统 、 银 行 柜员 系统 、 工 业 
控制 系统 等 等 。 如 果 我 们 仍然 滞留 在 磁带 文件 系统 时 代 ， 那 么 今天 我 们 习以为常 的 大 多 数 系 
统 就 不 可 能 存在 了 。 


1.1.2 个 人 计算 机 /第 四 代 编 程 语 言 技术 


到 了 20 世 纪 80 年 代 ， 涌 现 出 了 一 些 更 新 颖 的 技术 ， 比 如 个 人 计算 机 (PC) 和 第 四 代 编 程 
语言 (Fourth-Generation Language, 4GL )。 最 终 用 户 开始 扮演 一 种 以 前 无 法 想像 的 角色 一 一 直 
接 控制 数据 和 系统 ， 而 在 以 前 这 些 都 是 留 给 专职 数据 处 理 人 员 来 处 理 的 。 随 着 PC 与 4GL 技 术 
的 发 展 ， 诞 生 了 一 种 新 思想 。 即 ， 除 了 高 性 能 在 线 事 务 处 理 之 外 ， 利 用 数据 可 以 做 更 多 的 事 
情 。 早 期 称 为 MIS 的 管理 信息 系统 (Management Information System ) 也 可 以 实现 了 。MIS 如 
今 称 为 DSS， 是 用 来 进行 管理 决策 的 处 理 过 程 。 以 前 ， 数 据 和 技术 以 排他 的 方式 驱动 详细 的 
操作 型 决策 。 没 有 任何 一 个 单一 数据 库 可 以 同时 用 于 操作 型 事务 处 理 与 分 析 处 理 。 图 1-1 所 示 
为 这 种 单一 数据 库 的 范例 。 


1.1.3 进入 抽取 程序 
大 型 在 线 事务 处 理 系 统 问 世 后 不 久 ， 就 出 现 了 一 种 用 于 “抽取 ”处 理 的 程序 ( 见 图 1-2)， 
这 种 程序 并 不 损害 已 有 的 系统 。 


1985 ( 











给 定 一 些 参 数 ， 在 文件 中 搜索 满足 参数 
条 件 的 数据 ， 然 后 将 这 些 数据 拖 到 别处 





为 什么 要 进行 抽取 处 理 ? 


* 性 能 
“控制 





图 1-2 抽取 处 理 的 性 质 





4 获 了 间 


抽取 程序 是 所 有 程序 中 最 简单 的 。 它 搜索 整个 文件 或 数据 库 ， 使 用 某 些 标准 选择 合乎 要 
求 的 数据 ， 并 把 这 些 数 据 传送 到 其 他 文件 或 数据 库 中 去 。 

抽取 程序 很 受 欢迎 ， 这 至 少 有 两 个 原因 : 

“ 因为 用 抽取 处 理 能 将 数据 从 高 性 能 在 线 事务 处 理 环境 中 转移 出 来 、 这 样 、 在 需要 对 数据 
进行 总 体 分 析 时 ， 在 性 能 方面 就 不 存在 冲突 了 。 

* 当 用 抽取 程序 将 数据 从 操作 型 事务 处 理 环 境内 移出 后 ， 数 据 的 控制 方式 就 发 生 了 转变 。 
最 终 用 户 一 旦 开始 控制 数据 ， 他 们 就 最 终 “ 拥 有 ”了 这 些 数 据 。 因 为 这 些 (以 及 可 能 其 
他 的 ) 原因 ， 抽 取 处 理 的 应 用 十 分 普遍 。 


1.1.4 虹 蛛 网 


如 图 1-3 所 示 ， 抽 取 处 理 的 “ 蜂 蛛 网 ”开始 形成 。 起 初 只 是 抽取 ， 随 后 是 抽取 之 上 的 抽取 ， 
接着 是 在 此 基础 上 的 再 次 抽取 ， 如 此 等 等 。 对 于 一 个 大 公司 ， 每 天 进行 多 达 45 000 次 的 抽取 
是 很 正常 的 。 

贯穿 于 公司 或 组 织 的 这 种 失控 的 抽取 处 理 模 式 很 常见 ， 以 致 得 到 一 个 专 有 名 称 一 一 “ 自 
然 演化 式 体 系 结构 " 。 当 一 个 组 织 以 放任 自流 的 态度 处 理 整 个 硬 、 软 件 体系 结构 时 ， 就 会 发 生 
这 种 情况 。 组 织 越 庞大 ， 越 成 熟 ， 自 然 演化 式 体系 结 构 问 题 就 变 得 越 严重 。 





A 部 门 +10% 


。 数 据 无 时 间 基 准 B 部 门 - 15% 
， 数据 算法 上 的 差异 
* 抽取 的 多 层次 问题 
。 外 部 数据 问题 
“无 公共 起 始 数据 源 
图 1-3 在 自然 演化 式 体系 结构 中 缺乏 数据 可 信 性 
1.2 自然 演化 式 体系 结构 的 问题 


自然 演化 式 体系 结构 带 来 了 许多 新 的 挑战 ， 如 : 
“数据 可 信 性 ， 
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“生产 率 问 题 。 
* 无 法 将 数据 转化 为 信息 。 


1.2.1 数据 缺乏 可 信和 性 


数据 缺乏 可 信 性 ， 如 图 1-3 所 示 。 两 个 部 门 向 管理 者 呈送 报表 ， 一 个 部 门 说 业绩 下 降 了 
15%， 而 另 一 个 部 门 说 业绩 上 升 了 10%。 两 个 部 门 的 结论 不 但 不 吻合 ， 而 且 相 去 其 远 。 另 外 ， 
要 协调 两 个 部 门 的 工作 也 很 困难 。 除 非 十 分 细致 地 编制 了 文档 ， 否 则 ， 对 任何 实际 问题 而 言 ， 
协调 都 是 不 可 能 的 。 

当 管 理 者 收 到 这 两 份 相 矛 盾 的 报表 时 ， 他 们 将 不 得 不 根据 政见 和 个 性 来 做 决定 ， 因 为 这 
两 个 数据 源 的 可 信和 度 都 不 高 。 这 是 自然 演化 式 体系 结构 中 数据 可 信和 性 危机 的 一 个 实例 。 

这 种 危机 广泛 存在 ， 也 是 可 以 预见 的 ， 为 什么 呢 ? 如 图 1-3 所 示 ， 有 如 下 五 个 原因 : 

“数据 无 时 间 基 准 。 

“ 数据 算法 上 的 差异 。 

* 抽取 的 多 层次 问题 。 

*。 外 部 数据 问题 。 

“无 公共 起 始 数据 源 。 

危机 可 预见 的 第 一 个 原因 是 数据 无 时 间 基 准 。 图 1-4 给 出 了 这 样 的 一 种 时 间 差 异 。 一 个 部 
门 在 星期 日 晚上 提取 了 分 析 所 需 的 数据 ， 而 另 一 个 进行 分 析 的 部 门 在 星期 三 下 午 就 抽取 了 数 
据 。 有 理由 相信 对 某 一 天 抽取 的 数据 样本 进行 的 分 析 与 对 另 一 天 抽取 的 数据 样本 进行 的 分 析 
的 结果 可 能 相同 吗 ? 当然 不 能 ! 公司 内 的 数据 总 是 在 变 的 。 对 于 在 不 同时 刻 抽 取出 来 的 任何 
数据 集 ， 如 果 它 们 的 分 析 结 果 是 相同 的 ， 那 只 能 是 偶然 的 。 


多 层 抽取 


部 门 A+10% 







。 周 日 晚 
。 担 账目 


多 层 抽取 
部 门 B 一 15% 
。 周 三 下 午 
无 公共 起 始 数据 源 "大 账目 
。 数 据 来 源 丢 失 
。 没 有 同 输入 外 部 数据 的 其 他 人 协调 


图 1-4 自然 演化 式 体系 结构 中 可 信 性 危机 可 预见 的 原因 
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第 二 个 理由 是 算法 上 的 差异 。 比 如 ， 一 个 部 门 选择 所 有 的 旧账 号 做 分 析 。 而 另 一 个 部 门 
选择 所 有 的 大 账号 做 分 析 。 在 有 旧账 号 的 顾客 和 有 大 账号 的 顾客 之 间 存 在 必然 的 相关 性 吗 ? 
可 能 没有 。 那 么 分 析 结 果 大 相 径 庭 就 没有 什么 可 大 惊 小 怪 的 了 。 

可 信 性 危机 的 可 预见 性 的 第 三 个 因素 进一步 恶化 了 前 两 个 因素 造成 的 后 果 。 每 次 新 的 抽 
取 结 束 后 ， 因 为 时 间或 算法 上 的 差异 ， 抽 取 结 果 出 现 差 异 的 可 能 性 增 大 。 对 一 个 公司 而 言 ， 
从 数据 进入 公司 系统 到 为 决策 者 准备 好 分 析 结 果 ， 经 过 八 层 或 九 层 抽取 并 不 罕见 。 这 其 中 有 
抽取 ， 抽 取 的 抽取 ， 以 及 抽取 的 抽取 的 抽取 ， 等 等 。 每 一 个 新 层次 的 抽取 都 会 使 要 发 生 的 问 
题 变 得 更 严重 。 

缺乏 可 信 性 的 第 四 个 理由 是 由 外 部 数据 引起 的 问题 。 利 用 当今 在 PC 层次 上 的 技术 很 容易 
从 外 部 数据 源 取 得 数据 。 在 图 1-4 所 示 的 例子 中 ， 一 个 分 析 人 员 从 《华尔街 日 报 》 取 得 数据 放 
入 分 析 流 中 ， 而 另 一 个 分 析 人 员 从 《商业 周刊 》 中 取得 数据 。 然 而 当 分 析 员 把 外 部 数据 加 入 
分 析 流 时 ， 却 去 掉 了 外 部 数据 的 身份 标识 。 由 于 对 数据 的 来 源 没有 进行 记录 ， 原 始 数 据 也 就 
成 了 数据 源 不 定 的 一 般 数 据 。 

并 且 ， 从 《华尔街 日 报 》 取 得 数据 的 分 析 人 员 对 从 《商业 周刊 》 中 取得 的 数据 一 无 所 知 ， 
反之 亦 然 。 这 样 ， 外 部 数据 导致 自然 演化 式 体 系 结构 中 的 数据 缺乏 可 信 性 就 不 足 为 奇 了 。 

导致 数据 缺乏 可 信和 性 的 最 后 一 个 因素 是 通常 没有 一 个 公共 的 起 始 数据 源 。 部 门 A 的 分 析 工 
作 源 于 文件 XYZ、 部 门 B 的 分 析 工 作 源 于 数据 库 ABC。 不 论文 件 XYZ 与 数据 库 ABC 之 间 关 系 
怎样 ， 它 们 之 间 都 不 存在 数据 同步 或 数据 共享 。 

基于 这 些 原因 ， 如 果 一 个 企业 或 机 构 允许 其 原 有 的 软件 、 硬 件 和 数据 自然 地 演化 为 蜂 蛛 
网 ， 那 么 说 在 这 个 组 织 中 正 酝 酿 着 可 信和 性 危机 就 一 点 也 不 奇 伴 了 。 


1.2.2 生产 率 问 题 


数据 可 信和 性 还 不 是 自然 演化 式 体系 结构 中 惟一 的 主要 的 问题 。 特 别 是 当 需 要 在 整个 企业 
范围 内 进行 数据 分 析 时 ， 生 产 率 也 是 相当 精 糕 的 。 

设想 一 个 公司 已 经 运营 了 一 段 时 间 ，、 并 且 已 经 积累 了 大 量 数据 ， 如 图 1-5 顶 部 所 示 。 

管理 者 希望 用 数 年 来 积累 的 大 量 数据 和 众多 文件 生成 一 张 企 业 报 表 ， 为 制作 这 一 企业 报 
表 ， 接 受 了 该 任务 的 设计 者 决定 要 做 三 件 事 : 

。 找 到 报表 需要 的 数据 并 分 析 数 据 。 

“为 报表 编辑 数据 。 

。 召集 程序 员 / 分 析 员 去 完成 以 上 工作 。 

要 进行 数据 定位 ， 必 须 分 析 很 多 文件 和 数据 的 布局 。 有 些 文件 使 用 虚拟 存储 器 存 取 方法 
(Virtual Storage Access Method, VSAM ) ， 有 些 文件 使 用 信息 管理 系统 (Information 
Management System, IMS ) ， 有 些 使 用 Adabas (Advanced Database Management System 一 一 译 
者 注 )， 有 些 使 用 集成 数据 库 管 理 系统 (Integrated Database Management System, IDMS )。 访 
问 整个 企业 的 数据 需要 不 同 的 技能 组 合 。 而 且 ， 还 存在 一 些 复杂 因素 : 例如 ， 两 个 文件 都 有 
一 个 称 为 BALANCE 的 元 素 ， 但 是 两 个 元 素 的 意义 相去 其 远 ; 另 一 个 例子 ， 一 个 数据 库 有 一 个 
称 为 CURRBAL 的 文件 ， 而 在 另 一 个 数据 集中 存在 一 个 称 为 TLNVLEVEL 的 文件 ， 此 文件 恰好 包 
含有 与 CURRBAL 相 同 的 信息 。 这 就 不 得 不 遍历 每 一 个 数据 ， 不 是 按 名 称 遍历 ， 而 是 按 数 据 的 
定义 和 计算 要 求 遍历 ， 这 是 一 个 视 长 而 乏味 的 过 程 。 但 是 ， 要 生成 企业 报表 ， 这 个 过 程 就 不 
可 避免 。 除 非 已 对 数据 进行 分 析 和 “合理 化 ”处 理 ， 否 则 报表 最 终 将 产生 更 大 的 混乱 ， 报 表 
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中 的 数据 风 马 牛 不 相 及 。 





抽取 程序 很 多 ， 并 且 每 个 都 是 定制 的 ， 不 得 不 克服 很 多 技术 上 的 障碍 


图 1-5 自然 演化 式 体系 结构 不 利于 生产 率 的 提高 


一 旦 数据 定位 完成 ， 制 作 报 表 的 下 一 个 任务 就 是 编辑 数据 。 当 然 ， 为 从 众多 的 数据 源 中 
取得 数据 而 必须 编写 的 程序 可 能 相当 简单 。 但 是 以 下 这 些 事实 使 得 这 种 工作 变 得 复杂 了 : 

“。 要 写 的 程序 很 多 。 

“ 每 个 程序 都 适 要 定制 。 

“程序 涵盖 了 公司 采用 的 所 有 技术 。 

简 言 之 ， 尽 管 报表 生成 程序 编写 起 来 并 不 难 ， 但 为 生成 企业 报表 所 进行 的 数据 检索 仍 是 
个 漫长 而 乏味 的 工作 。 

最 近 ， 在 一 个 面临 以 上 这 些 问 题 的 公司 里 ， 分 析 人 员 估 算 过 要 完成 这 项 工作 需要 很 长 时 
间 ， 如 图 1-6 所 示 。 

如 果 设 计 者 提出 只 和 需要 两 三 个 人 月 资源 的 工作 量 ， 那 么 生成 这 样 一 个 报表 可 能 不 需要 管 
理 者 过 多 的 关注 。 但 分 析 员 认为 这 项 工作 需要 很 多 资源 ， 管 理 者 就 必须 将 这 个 请 求 与 其 他 资 
源 的 请 求 一 并 考虑 ， 并 且 必 须 为 这 些 请 求 制定 优先 级 。 








找到 数据 “9~12 个 月 
取得 数据 “15~24 个 月 
程序 员 / 分 析 员 ? ? ? 


3~5 年 








3 全 


除非 某 些 非常 个 别 的 情况 ， 第 1 份 报表 的 制作 不 大 可 能 为 
第 2 份 报表 或 第 3 份 报表 等 等 的 制作 有 什么 贡献 





图 1-6 在 编写 第 1 份 报表 时 ， 对 于 后 继 报 表 的 需求 还 不 清楚 


如 果 付 出 的 代价 是 一 次 性 的 ， 那 么 为 生成 报表 花费 大 量 的 资源 也 是 可 行 的 。 换 句 话说 ， 
如 果 生 成 第 1 份 企 业 报 表 需 要 大 量 资 源 ， 生 成 所 有 后 继 报表 都 可 以 建立 在 第 1 份 报表 基础 之 上 ， 
那么 ， 不 妨 为 生成 第 1 份 报表 付出 一 些 代价 。 但 是 ,事实 上 并 非 如 此 。 

除非 事先 知道 未 来 的 企业 报表 需求 , 并 且 在 建造 第 1 份 企业 报表 时 考虑 到 了 这 些 需求 因素 ， 
否则 ， 每 个 新 的 企业 报表 总 要 花费 同 前 面 差不多 大 的 代价 。 换 名 话说， 第 1 份 企业 报表 不 大 可 
能 为 将 来 别 的 企业 报表 需求 做 出 什么 贡献 。 

因此 ， 在 企业 环境 中 ,生产 率 是 自然 演化 式 体系 结构 和 遗留 系统 所 面临 的 一 个 主要 问题 。 
简单 来 说 ， 就 是 使 用 已 形成 蜂 蛛 网 的 遗留 系统 ， 信 息 的 访问 费用 非常 高 ， 并 且 需 要 花 很 长 的 
时 间 才 能 建立 起 来 。 


1.2.3 从 数据 到 信息 


生产 率 和 可 信 性 还 不 是 问题 的 全 部 ， 自 然 演化 式 体系 结构 还 存在 着 另 一 个 主要 缺陷 一 一 无 
法 将 数据 转化 为 信息 。 竺 看 起 来 ， 从 数据 转化 成 信息 的 想法 是 一 个 缺少 实际 意义 的 虚无 概念 。 
但 是 事实 上 完全 不 是 这 样 。 

考虑 下 面 的 信息 需求 ， 这 种 需求 在 银行 环境 中 很 典型 : “今年 的 账号 活动 同 过 去 五 年 中 的 
各 个 年 份 有 什么 不 同 ?“ 

图 1-7 描 述 了 这 种 信息 需求 。 

DSS 分 析 员 在 设法 满足 信息 需求 的 这 个 过 程 中 ， 发 现 的 第 一 个 事实 就 是 到 现 有 的 系统 中 
寻求 需要 的 数据 大 概 是 最 粳 的 事情 。DSS 分 析 员 将 不 得 不 面 对 众 多 的 未 集成 的 遗留 应 用 。 例 
如 ， 银 行 系统 中 有 分 离 的 储 苹 应 用 、 借 贷 应 用 、 活 期 存款 应 用 和 信托 应 用 。 然 而 ， 试 图 用 常 
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规 方法 从 它们 当中 抽取 出 信息 几乎 是 不 可 能 的 ， 这 是 因为 这 些 应 用 在 建立 时 从 来 没有 考虑 过 
集成 ， 即 使 DSS 分 析 员 想 对 它们 进行 解释 也 和 其 他 任何 人 一 样 困难 。 


从 数据 到 信息 


& 7 活期 存款 账目 (DDA) 


存款 证 (CD) 


存折 


首先 ， 遇 到 大 量 应 用 程序 


活期 存款 账目 (DDA) 


存款 证 (CD) 
相同 的 元 素 ， 
不 同 的 名 字 
不 同 的 元 素 ， 
相同 的 名 字 
其 次 ， 发 现 缺少 应 用 程序 之 间 的 集成 





图 1-7 “这 个 金融 机 构 今年 的 账号 活动 同 过 去 五 年 中 的 各 个 年 份 有 什么 不 同 ?” 


但 是 ， 缺 少 集成 性 只 是 分 析 人 员 在 试图 满足 信息 需求 过 程 中 遇 到 的 困难 之 一 。 第 二 个 主 
要 障碍 是 在 这 些 应 用 中 ， 没 有 存储 足够 的 可 以 满足 DSS 分 析 员 的 需求 的 历史 数据 。 

图 1-8 表 明 贷 款 部 门 拥有 长 达 两 年 的 有 用 数据 ， 存 折 处 理 部 门 则 有 长 达 一 年 的 数据 ， 活 期 
存款 账目 (DDA) 应 用 程序 有 30 天 的 数据 ， 存 款 证 (CD) 处 理 程序 有 18 个 月 的 数据 。 建 造 这 
些 应 用 程序 是 用 来 满足 当前 收 支 处 理 需 要 的 ， 设 计时 从 未 考 虚 过 保存 这 历史 数据 以 满足 DSS 
分 析 的 需求 。 那 么 不 用 说 ， 对 DSS 分 析 来 说 ， 利 用 现 有 系统 不 是 明智 的 选择 。 但 是 除了 这 些 
又 能 求助 于 什么 呢 ? 

从 自然 演化 式 体系 结构 中 建立 起 来 的 系统 对 信息 需求 的 支持 确实 是 不 够 的 ， 它 们 缺乏 集 
成 性 ， 并 且 在 分 析 型 处 理 所 需 的 数据 的 时 间 范 围 (或 时 间 参 数 ) 与 在 这 些 应 用 程序 中 数据 的 
可 用 的 时 间 范 围 之 间 存 在 差异 。 


1.2.4 方法 的 变迁 


自然 演化 式 体系 结构 的 存在 方式 (今天 大 多 数 企业 采取 这 种 模式 ) 确实 不 足以 满足 将 来 
的 需要 。 这 就 需要 进行 一 种 更 大 的 变化 一 一 体系 结构 的 转变 。 于 是 ,我 们 迎 来 了 体系 化 的 数 
据 仓 库 环 境 。 
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从 数据 到 信息 的 一 个 例子 
“这 个 金融 机 构 今年 的 账号 活动 同 过 去 五 年 中 的 各 个 年 份 有 什么 不 同 ?” 


当前 值 一 一 两 年 当前 值 一 一 30 天 ) 


” 存折 存款 证 (CD) 


当前 值 一 一 一 年 当前 值 一 一 18 个 月 





图 1-8 现 有 的 应 用 程序 的 确 没有 将 数据 转化 成 信息 所 需 的 足够 历史 数据 


在 体系 结构 化 环境 的 核心 ， 主 要 存在 两 种 数据 ; 原始 数据 和 导出 数据 。 图 1-9 给 出 了 原始 
数据 与 导出 数据 之 间 的 一 些 主要 区 别 。 





方法 的 变迁 
原始 数据 /操作 型 数据 导出 数据 /DSS 型 数据 
* 面向 应 用 *。 面向 主题 
*。 详细 的 * 概要 的 ， 或 精 化 的 
。 在 访问 瞬间 是 准确 的 。 代 表 过 去 的 数据 ， 快 照 
。 为 日 常 工作 服务 。 为 管理 者 服务 
。 可 更 新 。 不 更 新 
*。 重复 运行 。 启 发 式 运行 
* 处 理 需 求 预先 可 知 。 处 理 需 求 事先 不 知道 
“生命 周期 符合 SPLC “。 完 全 不 同 的 生命 周期 
。 对 性 能 要 求 高 * 对 性 能 要 求 宽松 
* 一 次 访问 一 个 单元 。 一 次 访问 一 个 集合 
*。 事务 处 理 驱动 。 分 析 处 理 驱 动 
。 就 操作 型 数据 更 新 责任 来 说 更 新 。 无 更 新 控制 问题 
控制 是 一 个 主要 关心 的 问题 
。 高 可 用 性 。 宽 松 的 可 用 性 要 求 
*， 整体 管理 。 以 子 集 管理 
。 非 元 余 性 * 总 是 存在 元 余 
*， 静态 结构 ; 可 变 的 内 容 。 结 构 灵活 
。 一 次 处 理 数 据 量 小 。 一 次 处 理 数 据 量 大 
。 支 持 日 常 操 作 。， 支 持 管理 需求 
。 访 问 频繁 。 访 问 很 少 或 不 多 








图 1-9 原始 数据 和 导出 数据 的 区 别 


以 下 是 这 两 种 数据 间 存在 的 另外 一 些 差异 : 
“ 原始 数据 是 维持 企业 日 常 运行 所 需 的 细节 性 数据 ; 导出 数据 是 要 经 过 汇总 或 计算 来 满足 
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公司 管理 者 需要 的 数据 。 

* 原始 数据 可 以 更 新 ;导出 数据 可 以 重新 计算 得 出 ， 但 不 能 直接 进行 更 新 。 

* 原始 数据 主要 是 当前 值 数 据 ; 导出 数据 通常 为 历史 数据 。 

“ 原始 数据 由 以 重复 方式 运行 的 过 程 操作 ; 导出 数据 由 启发 式 而 非 重 复 地 运行 的 程序 与 过 

程 操作 。 

“ 操作 型 数据 是 原始 的 ，DSS 数 据 是 导出 的 。 

“原始 数据 支持 日 常 工作 ;导出 数据 则 支持 管理 工作 。 

奇怪 的 是 ， 信 息 处 理 界 竟然 曾经 认为 将 原始 数据 和 导出 数据 可 以 配合 在 一 起 ， 并 且 能 很 
好 地 共存 于 一 个 数据 库 中 。 事 实 上 ， 原 始 数据 和 导出 数据 有 如 此 大 的 差异 ， 它 们 根本 不 能 存 
在 于 同一 数据 库 中 ， 甚 至 不 能 共存 于 同一 个 环境 中 。 


1.2.5 体系 结构 化 环境 
由 于 原始 数据 和 导出 数据 的 差异 而 引发 的 数据 分 离 的 自然 扩展 过 程 如 图 1-10 所 示 。 


J 一 口 ~ 口 -- 口 


操作 层 原子 /数据 仓库 层 部 门 层 
* 细节 的 “大 部 分 是 粒度 “领域 狭隘 “暂时 的 
“日 常 的 化 数据 * 一 些 导 出 数据 ; 。 为 特定 月 的 的 
“当前 值 的 “" 随时 间 变 化 的 一 些 原始 数据 。 启 发 式 的 
* 访问 频繁 * 集成 的 。 典 型 的 部 门 。 非 重复 的 
* 面向 应 用 * 面向 主题 “财务 。 基 于 PC 和 工作 
。 一些 汇总 * 市 场 站 的 
。 工 程 
。 保 险 
* 制造 


图 1-10 尽管 看 起 来 不 太 明显 ， 但 在 体系 结构 化 环境 中 存在 的 数据 元 余 很 少 


在 体系 结构 化 环境 中 有 四 个 层次 的 数据 一 一 操作 层 、 原 子 或 数据 仓库 后 、 部 门 层 (或 数 
据 集 市 层 )、 个 体 层 。 这 些 不 同 层 次 的 数据 是 一 种 称 为 企业 信息 源 (CIF, corporate information 
factory ) 的 更 大 的 体系 结构 的 基石 。 操 作 层 数据 只 包含 面向 应 用 的 原始 数据 ， 并 且 主 要 服务 
于 高 性 能 事务 处 理 领域 。 数 据 仓 库 层 存储 不 可 更 新 的 集成 的 原始 历史 数据 ， 此 外 ， 也 存放 一 
些 导 出 数据 。 部 门 /数据 集 市 层 则 是 根据 最 终 用 户 的 需求 为 满足 部 门 的 特殊 需要 而 建立 的 。 在 
数据 个 体 层 中 完成 大 多 数 启发 式 分 析 。 

不 同 层次 的 数据 构成 了 一 个 更 高 层次 的 体系 化 实体 集合 ， 这 些 实体 又 构成 了 企业 信息 源 。 
这 些 内 容 在 笔者 的 《The Corporate Information Factory ，Second Edition》 (Hoboken, N.J.: 
Wiley，2002) 一 书 中 有 详细 介绍 。 

有 些 人 认为 这 种 体系 结构 化 环境 产生 了 太 多 的 元 余数 据 。 事 实 上 完全 不 是 这 样 ， 尽 管 年 
看 起 来 不 明显 。 相 反 ， 在 蜂 蛛 网 环境 中 倒是 存在 着 大 量 的 数据 元 余 。 

考 虚 一 个 贯穿 于 这 种 体系 结构 的 数据 的 简单 实例 ， 如 图 1-11 所 示 。 在 操作 层 中 存在 着 一 
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个 顾客 (J Jones) 的 记录 。 操 作 层 的 记录 包含 有 当前 值 数据 记录 ， 并 且 在 得 到 通知 后 可 以 更 
新 ， 以 反映 顾客 的 当前 状况 。 当 然 ， 如 果 关 于 J Jones 的 信息 变化 了 ， 那 么 操作 层 的 记录 将 随 


之 更 新 为 新 的 正确 数据 。 


一 个 简单 例子 : 一 个 顾客 


-二 





操作 层 原子 /数据 仓库 层 。 “部门 /数据 集 市 层 个 体 县 
按 月 的 顾客 数据 

















J Jones J Jones 1 月 -4101 顾客 
。 [a 1986~1987 

pA High 大 街 456 号 从 1982 年 起 

- 信用 度 账户 余额 > 
J Jones i 5 000 
1987-~1989 和 | 信用 度 不 低 于 B 
High 大 街 456 号 和 | 
信用 度 一 有 
J Jones 暂时 的 ! 
1989- 今 
Main 大 街 123 号 
信用 度 - RAR 





JJones 现 在 的 信 JJones 的 信用 历 ”我们 吸引 的 顾客 是 越 来 ”我 们 所 分 析 的 顾 
用 度 是 多 少 ? 史 如 何 ? 越 多 还 是 越 来 越 少 ? 客 趋势 如 何 ? 


图 1-11 不 同 层次 的 数据 可 以 用 来 完成 不 同类 型 的 查询 


在 数据 仓库 环境 中 可 以 找到 几 条 有 关 J Jones 的 记录 ， 这 些 记录 反映 了 J Jones 的 历史 信息 。 
比如 ， 要 想 知道 ] Jones 去 年 住 在 什么 地 方 ， 就 可 以 搜索 数据 仓库 中 的 记录 。 数 据 仓 库 环境 中 
的 数据 与 操作 型 环境 中 的 数据 之 间 没有 重 私 ， 操 作 型 环境 中 是 当前 信息 而 数据 仓库 环境 中 则 
是 历史 信息 。 如 果 J Jones 的 地 址 发 生 了 变化 ， 在 数据 仓库 中 将 加 入 一 条 新 记录 ， 这 个 记录 反 
映 了 J Jones 住 在 以 前 的 地 址 的 起 始 时 间 和 结束 时 间 。 注 意 数据 仓库 中 的 记录 之 间 并 没有 重复 ， 
并 且 在 数据 仓库 中 每 个 记录 都 有 相关 联 的 时 间 元 素 。 

部 门 环境 (也 常 称 作 数据 集 市 层 、 在 线 分 析 处 理 (OLAP) 层 或 多 维 DBMS 层 ) 包含 公司 
中 不 同 职能 范围 的 部 门 有 用 的 信息 。 部 门 环境 包括 市 场 部 门 数据 库 、 财 务 部 门 数据 库 、 保 险 部 
门 数 据 库 ， 等 等 。 所 有 部 门 数据 库 的 数据 源 就 是 数据 仓库 。 尽 管 数据 集 市 中 的 数据 与 操作 层 或 
数据 仓库 中 的 数据 存在 着 必然 的 联系 ， 但 是 部 门 /数据 集 市 环境 与 数据 仓库 环境 中 的 数据 有 根本 
的 不 同 。 数 据 集 市 中 的 数据 是 反 向 规范 化 的 和 汇总 的 ， 是 根据 单个 部 门 的 操作 型 需求 形成 的 。 

部 门 层 或 数据 集 市 层 的 典型 数据 是 月 度 顾客 文件 。 在 此 文件 中 是 一 张 所 有 顾客 的 分 类 列 
表 。J Jones 与 其 他 顾客 每 月 都 出 现在 这 个 汇总 表 当 中 。 可 以 进一步 考虑 将 记 账 信 息 以 元 余 的 
形式 存储 。 

最 后 的 数据 层 是 个 体 层 。 个 体 层 数据 常常 是 暂时 的 、 小 规模 的 。 在 个 体 层 要 做 很 多 启发 
式 分 析 。 通 常 ， 个 体 层 数据 是 由 PC 支持 的 。 主 管 信息 系统 (EIS) 处 理 主要 运行 在 个 体 层 上 。 


1.2.6 体系 结构 化 环境 中 的 数据 集成 
体系 结构 化 环境 的 一 个 重要 方面 没有 在 图 1-11 中 表示 出 来 ， 那 就 是 体系 结构 中 的 数据 集 
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成 。 当 数据 从 操作 型 环境 传 向 数据 仓库 环境 时 ， 需 要 对 数据 进行 集成 ， 如 图 1-12 所 示 。 


一 个 简单 例子 : 一 个 顾客 


操作 层 原子 /数据 仓库 层 


; 
J Jones 
女 
1945 年 7 月 20 日 


汽车 保险 





J Jones 






1945 年 7 月 20 日 
去 年 有 两 张 罚 单 
一 次 大 事故 


Main 大 街 123 号 


两 个 孩子 
高 血压 





房屋 财产 保险 


J Jones 
Main 大 街 ]23 号 
已 婚 


健康 保险 





图 1-12 将 数据 从 操作 型 环境 转移 到 数据 仓库 环境 中 时 ， 要 对 数据 进行 集成 


把 数据 从 操作 型 环境 载 入 到 数据 仓库 环境 时 ， 如 果 不 进行 集成 就 没有 意义 。 如 果 数 据 以 
一 种 非 集成 状态 到 达 数 据 仓库 ， 它 就 无 法 用 于 支持 数据 的 企业 视图 。 数 据 的 企业 视图 是 体系 
结构 化 环境 的 本 质 之 一 。 

在 每 一 个 环境 中 ， 未 经 集成 的 操作 型 数据 都 是 复杂 和 难以 处 理 的 ， 这 是 无 法 改变 的 事实 。 
接受 集成 过 程 这 样 的 束 手 任务 对 于 任何 人 来 说 都 不 是 件 令 人 恰 快 的 事 。 但 是 ， 为 了 获得 数据 
仓库 真正 的 效益 ， 这 项 令 人 头疼 的 、 复 杂 的 费时 劳动 必须 进行 。 执 取 / 转 换 /装载 (ETL) 软件 
可 以 使 这 个 乏味 过 程 的 大 部 分 自动 进行 。 此 外 ， 这 个 集成 过 程 只 需 进行 一 次 。 无 论 如 何 我 们 
必须 明白 ， 当 数据 从 操作 型 环境 流入 数据 仓库 中 时 ， 数 据 集 成 是 必须 进行 的 ， 而 不 仅仅 是 将 
数据 扔 到 数据 仓库 〈 这 是 根本 不 行 的 )。 


1.2.7 用 户 是 谁 


数据 仓库 或 DSS 环境 中 的 许多 东西 在 根本 上 不 同 于 操作 型 环境 中 的 东西 。 对 于 那些 终生 
从 事 操 作 型 环境 工作 的 开发 设计 人 员 来 说 ， 当 他 们 刚 开始 接触 数据 仓库 或 DSS 环境 时 ， 常 党 
会 感到 不 安 。 要 使 他 们 明白 数据 仓库 为 什么 会 与 他 们 以 前 所 熟悉 的 环境 有 如 此 之 大 的 差异 ， 
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就 要 使 他 们 对 数据 仓库 和 操作 型 环境 的 用 户 的 不 同 有 所 了 解 。 

数据 仓库 的 用 户 也 称 为 DSS 分 析 员 ， 他 首先 是 个 商务 人 员 ， 其 次 才 是 技术 人 员 。DSS 分 析 
员 的 主要 工作 是 定义 和 发 现在 企业 决策 中 使 用 的 信息 。 

了 解 DSS 分 析 员 的 想法 及 他 们 对 数据 仓库 使 用 的 理解 是 很 重要 的 .DSS 分 析 员 有 一 种 想法 ， 
即 “ 给 我 看 一 下 我 说 我 想 要 的 东西 ， 然 后 我 才能 告诉 你 我 真正 想 要 什么 。” 换 句 话说 ，DSS 分 
析 员 在 发 现 模式 下 工作 。 只 有 看 到 报表 或 屏幕 上 的 数据 时 ， 他 们 才 开 始 探讨 是 否 有 必要 进行 
DSS 分 析 。DSS 分 析 员 常 说 :“ 哈 ， 现 在 我 知道 了 什么 是 可 行 的 ， 我 能 告诉 你 ， 我 真正 想 要 什 
么 东西 了 。 但 如 果 我 不 知道 这 些 ， 我 根本 无 法 明确 地 告诉 你 我 要 什么 。” 

DSS 分 析 员 的 态度 之 所 以 重要 的 理由 如 下 : 

* 它 是 合理 的 。DSS 分 析 员 就 是 这 样 思 考 和 开展 业务 活动 的 。 

。 它 是 广泛 的 。 全 世界 的 DSS 分 析 员 都 是 这 样 思考 的 。 

* 它 对 数据 仓库 的 开发 方式 和 使 用 数据 仓库 的 系统 的 开发 方式 有 深远 的 影响 。 

传统 的 系统 开发 生命 周期 (SDLC ) 不 适用 于 DSS 分 析 领 域 。SDLC 假 设 在 设计 之 初 ， 需 
求 是 已 知 的 (或 至 少 是 可 以 发 现 的 )。 但 是 ， 在 DSS 分 析 员 眼中 ， 到 DSS 开 发 生命 周期 的 最 后 
才 发 现 真正 的 需求 。DSS 分 析 员 从 现 有 需求 开始 ， 要 将 新 的 需求 考虑 在 内 几乎 是 完全 不 可 能 
的 事 。 由 此 可 见 ， 数 据 仓库 具有 一 种 完全 不 同 的 开发 生命 周期 。 


1.3 开发 生命 周期 


我 们 已 经 看 到 操作 型 数据 通常 是 面向 应 用 ， 因 此 是 非 集成 的 ， 而 数据 仓库 数据 必须 是 集 
成 的 。 在 操作 层 的 数据 和 处 理 与 数据 仓库 层 的 数据 和 处 理 之 间 ， 存 在 其 他 几 个 重要 区 别 。 这 
些 系统 潜在 的 不 同 开发 生命 周期 涉及 到 许多 需 关 注 的 问题 ， 如 图 1-13 所 示 。 





数据 仓库 
J 
传统 SDLC 数据 仓库 SDLC 
。 收 集 需求 。 实 现 数据 仓库 
。 分 析 。 集 成 数据 
“设计 * 检 验 偏差 
*。 编程 。 针 对 数据 编程 
。 测 试 。 设 计 DSS 系 统 
。 集 成 。 分 析 结 果 
。 实 现 * 理 解 需求 


图 1-13 数据 仓库 环境 下 的 系统 开发 生命 周期 与 传统 SDLC 几 乎 完全 相反 
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如 图 1-13 所 示 ， 在 操作 型 环境 中 使 用 的 是 传统 的 系统 开发 生命 周期 SDLC。SDLC 常 称 为 
瀑布 式 开发 方法 ， 因 为 其 中 的 每 一 项 活动 都 是 确定 的 ， 并 且 只 有 一 个 活动 结束 后 ， 下 一 个 活 
动 才 会 被 触发 开始 。 

数据 仓库 的 开发 则 以 一 种 完全 不 同 的 开发 生命 周期 进行 ， 有 了 时 这 种 周期 称 为 CLDS (与 
SDLC 顺 序 相反 )。 传 统 的 SDLC 由 需求 驱动 。 为 建立 系统 ， 首 先 必须 理解 需求 ， 然 后 进入 设计 
和 开发 阶段 。 而 CLDS 几 乎 刚好 相反 。CLDS 由 数据 开始 ， 得 到 数据 后 ， 将 数据 集成 。 然 后 ， 
检验 数据 存在 什么 偏差 。 之 后 ， 针 对 数据 写 程序 ， 分 析 程序 的 执行 结果 ， 最 后 ， 系 统 需求 才 
得 到 理解 。 一 旦 系统 需求 得 到 理解 ， 就 需要 对 系统 的 设计 进行 调整 ， 然 后 针对 不 同 的 数据 集 
开始 新 的 开发 周期 。 因 为 开发 生命 周期 不 断 地 重新 安排 不 同类 型 的 数据 ， 所 以 ，CLDS 常 称 作 
“螺旋 式 ” 开 发 方法 。 

CLDS 是 传统 的 数据 驱动 开发 生命 周期 ， 而 SDLC 是 传统 的 需求 驱动 开发 生命 周期 。 采 用 不 
适当 的 开发 工具 和 技术 只 会 导致 浪费 和 混乱 。 比 如 ， 计 算 机 辅助 软件 工程 (CASE) 领域 的 分 
析 多 数 都 是 由 需求 驱动 的 。 试 图 将 CASE 工 具 和 技术 用 于 数据 仓库 领域 是 不 明智 的 ， 反 之 亦 然 。 


1.4 硬件 利用 模式 


操作 型 环境 和 数据 仓库 环境 之 间 还 有 另 一 个 主要 差别 ， 即 在 各 自 环 境 中 ， 硬 件 的 利用 模 
式 也 不 同 ， 如 图 1-14 所 示 。 

图 1-14 左 边 给 出 的 是 典型 的 操作 型 处 理 的 硬件 利用 模式 。 在 操作 型 处 理 中 有 多 个 波峰 和 
波 谷 ， 但 总 的 来 说 ， 存 在 相对 静态 的 且 可 预测 稳定 的 硬件 利用 模式 。 


操作 型 6 数据 仓库 





0% 
图 1-14 不 同 环境 下 的 不 同 硬件 利用 模式 


在 数据 仓库 环境 中 ， 存 在 一 个 根本 不 同 的 硬件 利用 模式 (如 图 的 右边 所 示 )， 即 利用 的 二 
元 模式 。 要 么 利用 全 部 硬件 ， 要 么 根本 不 用 硬件 。 估 算数 据 仓库 环境 中 的 硬件 平均 利用 率 是 
没有 意义 的 。 即 使 是 计算 数据 仓库 被 充分 利用 的 时 间 也 不 是 特别 有 用 或 有 启发 意义 。 

这 种 根本 区 别 也 表明 ， 同 时 在 同一 台 机 器 上 ， 把 两 种 环境 混在 一 起 为 什么 不 可 行 。 可 以 
针对 操作 型 处 理 优化 机 器 ， 或 者 针对 数据 仓库 处 理 优化 机 器 。 但 是 ， 不 能 在 同一 台 设 备 上 同 
时 实现 两 者 。 


15 为 重建 工程 创造 条 件 


从 生产 环境 转变 到 体系 结构 化 的 数据 仓库 环境 过 程 有 一 个 非常 有 用 的 副作用 ， 尽 管 这 种 
副作用 是 间接 得 到 的 。 图 1-15 表 明了 这 种 过 程 。 

在 图 1-15 中 ， 在 生产 环境 中 发 生 了 一 种 转变 。 第 一 个 作用 是 从 生产 环境 中 移 走 大 量 数 
据 一 一 大 部 分 是 档案 数据 。 移 走 大 量 数据 在 许多 方面 具有 好 的 效果 ， 包 括 如 下 几 条 : 

。 生产 环境 更 易于 纠 错 。 
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* 生 产 环境 更 易于 重 构 。 
* 生产 环境 更 易于 监控 。 
“生产 环境 更 易于 索引 。 








操作 型 环境 数据 仓库 环境 
图 1-15 从 传统 系统 环境 向 以 数据 仓库 为 中 心 的 体系 结构 环境 的 转变 


简 言 之 ,仅仅 十 移 走 巨大 数量 的 数据 就 可 使 生产 环境 更 具有 可 塑性 。 

操作 型 环境 和 数据 仓库 环境 分 离 的 另 一 个 重要 作用 是 从 生产 环境 中 移 走 信息 型 处 理 。 信 
息 型 处 理 采 取 报 表 、 屏 幕 显示 、 抽 取 等 形式 。 信 息 处 理 的 特点 是 不 停 地 变化 ， 商 业 形势 变化 、 
机 构 变 化 、 管 理 变化 、 财 务 状况 变化 ， 等 等 。 这 些 变化 中 的 任何 一 个 都 对 汇总 和 信息 性 处 理 
产生 影响 。 当 信息 性 处 理 处 在 传统 生产 环境 中 时 ， 维 护 起 来 无 体 无 止 。 事 实 上 ， 在 生产 环境 
中 ， 大 多 数 所 谓 的 维护 实际 上 就 是 贯穿 于 正常 的 信息 变化 周期 中 的 信息 性 处 理 。 通 过 把 大 多 
数 信息 性 处 理 移 到 数据 仓库 中 ， 生 产 环境 中 的 维护 负担 将 大 大 减轻 。 图 1-16 显 示 的 是 从 生产 
环境 中 移 走 大 量 数据 和 信息 性 处 理 的 效果 。 


大 量 的 历史 数据 ， 它 们 很 少 
被 访问 ， 几 乎 从 不 改变 





随 着 无 休止 的 维护 而 显示 出 
来 的 信息 型 ， 分 析 型 需求 


图 1-16 从 生产 环境 中 移 走 不 需要 的 数据 和 信息 型 需求 一 一 建造 数据 仓库 的 效果 


一 旦 生产 环境 经 历 了 转变 到 以 数据 仓库 为 中 心 的 体系 结构 化 环境 的 变化 以 后 ， 生 产 环境 
就 正好 适合 于 重建 工程 。 因 为 此 时 生产 环境 : 

。， 更 小 。 | 

。 更 简单 。 

* 更 集中 。 

总 之 ， 一 个 公司 要 想 成 功 地 重建 生产 系统 和 修整 遗留 系统 ， 最 重要 的 步 又 是 首先 建立 数 


据 仓库 环境 。 
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1.6 监控 数据 仓库 环境 


一 旦 建立 了 数据 仓库 ， 就 需要 对 它 进 行 维护 。 数 据 仓 上 库 维护 工作 中 的 一 个 重要 部 分 是 对 
性 能 进行 管理 ， 这 就 需要 对 数据 仓库 环境 进行 监控 。 
通常 ， 数 据 仓 库 环 境 中 有 两 种 受 监控 的 操作 成 分 : 存储 于 数据 仓库 中 的 数据 和 数据 的 使 
用 情况 。 监 控 数据 仓库 环境 中 的 数据 对 有 效 管理 数据 仓库 环境 是 最 基本 的 。 通 过 监控 数据 仓 
库 环 境 中 的 数据 能 取得 一 些 重要 信息 ， 包 括 : 
* 人 确定 发 生 了 什么 增长 、 增 长 发 生 在 什么 地 方 、 增 长 以 什么 速率 发 生 。 
* 确定 哪些 数据 正在 被 使 用 。 
*。 估算 最 终 用 户 得 到 的 响应 时 间 。 
* 确定 谁 在 实际 使 用 数据 仓库 。 
。 说 明 最 终 用 户 正在 使 用 数据 仓库 中 的 多 少数 据 。 
* 精确 指出 数据 仓库 何 时 被 使 用 。 
。 确定 数据 仓库 中 有 多 少数 据 正在 被 使 用 。 
“检测 数据 仓库 使 用 率 水 平 。 
当 数 据 体系 结构 设计 者 不 知道 这 些 问 题 的 答案 时 ， 要 有 效 地 管理 运行 中 的 数据 仓库 环境 
是 不 可 能 的 。 
监控 数据 仓库 真 的 有 用 吗 ? 只 要 考虑 一 下 知道 “在 数据 仓库 中 什么 数据 正在 被 使 用 ”有 
多 么 重要 就 明白 了 。 数 据 仓库 的 特性 是 不 停 地 增长 。 历 史 数据 不 停 地 加 入 数据 仓库 。 汇 总 数 
据 也 不 停 地 加 入 。 新 的 抽取 流 在 创建 。 同 时 ， 数 据 鲍 库 所 依赖 的 存储 和 处 理 技 术 可 能 很 昂贵 。 
有 时 会 产生 这 样 的 问题 : “为 什么 所 有 这 些 数 据 要 积累 起 来 ? 真有 人 用 这 些 数据 吗 ? ”显然 ， 
不 论 是 否 有 数据 仓库 的 合法 用 户 ， 在 数据 仓库 正常 运行 期 间 ， 一 旦 数据 被 放 入 数据 仓库 ， 数 
据 仓库 的 开销 就 会 增长 。 
只 要 数据 体系 结构 设计 者 没有 办 法 监控 数据 仓库 中 的 数据 的 使 用 情况 ， 那 么 除了 不 断 购 
买 新 的 计算 机 资源 一 一 更 多 的 存储 设备 、 更 多 的 处 理 器 等 等 之 外 就 别 无 选择 了 。 如 果 数 据 体 
系 结构 设计 者 可 以 对 数据 仓库 中 的 活动 和 使 用 进行 监控 ， 那 么 ， 就 可 以 知道 哪些 数据 没有 被 
使 用 。 如 果 可 能 的 话 ， 就 可 以 明智 地 将 不 用 的 数据 转移 到 那些 存储 代价 低 的 介质 上 去 。 这 是 
监控 数据 仓库 环境 中 的 数据 及 活动 得 到 的 非常 实在 的 和 直接 的 回报 。 
在 数据 监控 处 理 期 间 ， 可 以 建立 数据 的 各 种 概要 文件 ， 包 括 : 
， 数据 仓库 中 所 有 表 的 目录 。 
“这些 表 的 内 容 概要 。 
“ 数据 仓库 中 表 的 增长 情况 概要 。 
“ 用 于 访问 表 的 可 用 的 索引 目录 ， 
“汇总 表 和 汇总 源 的 目录 。 
监控 数据 仓库 活动 的 需求 通过 下 列 问题 来 说 明 : 
“什么 数据 正在 被 访问 ? 
“什么 时 候 访问 ? 
* 由 谁 访问 ? 
* 访问 频率 怎样 ? 
“在 什么 细节 层次 ? 
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。 对 请 求 的 响应 时 间 是 什么 ? 

。 在 一 天 的 什么 时 间 提出 请 求 ? 

。 请 求 多 大 的 数据 量 ? 

。 请 求 是 被 终止 ， 还 是 正常 结束 的 ? 

DSS 环境 中 的 响应 时 间 与 在 线 事务 处 理 (OLTP) 环境 中 的 响应 时 间 有 很 大 不 同 。 在 OLTP 
环境 中 ,响应 时 间 总 是 十 分 重要 的 。 在 OLTP 中 当 响 应 时 间 太 长 时 ， 业 务 情况 很 快 就 开始 变 粳 。 
在 DSS 环境 中 不 存在 这 种 关系 。 在 DSS 数据 仓库 环境 中 ， 响 应 时 间 总 是 宽松 的 。 在 DSS 中 响应 
时 间 不 是 决定 性 的 ， 相 应 地 ， 在 DSS 数据 仓库 环境 中 响应 时 间 以 分 钟 和 小 时 计 ， 在 某 些 情况 
下 以 天 计 。 

但 是 ， 在 DSS 数据 仓库 环境 中 响应 时 间 很 宽松 并 不 意味 着 响应 时 间 不 重要 。 在 DSS 数据 仓 
库 环境 中 ， 最 终 用户 进 行 反复 性 开发 工作 。 这 意味 着 下 一 个 层次 的 开发 依赖 于 当前 分 析 中 所 
得 到 的 结果 。 如 果 最 终 用 户 进行 反复 性 分 析 ， 并 且 周 转 时 间 只 有 10 分 钟 ， 那 么 ， 将 比 周转 时 
间 多 达 24 小 时 的 情况 具有 更 高 的 生产 率 。 因 此 ， 在 DSS 环境 中 ， 响 应 时 间 与 生产 率 之 间 存 在 
十 分 密切 的 关系 。DSS 环 境 中 响应 时 间 只 是 非 关键 性 的 ， 并 不 意味 着 它 无 关 紧 要 。 

能 测量 DSS 环境 中 的 响应 时 间 是 对 响应 时 间 进 行 管理 的 第 -一步 。 仅 据 此 一 点 ， 监 控 DSS 活 
动 就 是 非常 重要 的 步 又 。 

在 DSS 环 境 中 响应 时 间 度 量 的 问题 之 一 是 “要 度量 什么 ? ”在 OLTP 环 境 中 ， 要 度量 什么 
的 答案 是 显而易见 的 。 发 出 请 求 、 接 受 并 服务 ， 然 后 返回 给 最 终 用 户 。 在 OLTP 环 境 中 ， 响 应 
时 间 的 度量 是 从 请 求 被 提交 的 时 刻 算 起 到 结果 被 返回 的 时 间 。 但 是 DSS 数 据 仓 库 环境 不 同 于 
OLTP 环 境 ， 因 为 数据 返回 的 时 间 的 度量 不 明确 。 在 DSS 数 据 仓库 环境 中 ， 经 党 有 作为 查询 结 
果 返 回 的 大 量 数据 。 其 中 一 些 数据 在 某 一 时 间 返 回 ， 另 一 些 数据 在 晚 些 时 候 返 回 。 定 义 数据 
仓库 环境 中 数据 返回 时 间 不 是 件 容易 的 事 。 一 种 解释 是 数据 第 一 次 返回 的 时 间 ; 另 一 种 解释 
是 数据 最 后 一 次 返回 的 时 间 。 对 响应 时 间 度 量 还 有 很 多 其 他 可 能 的 解释 。 DSS 数据 仓 库 活动 
监控 程序 必须 能 提供 多 种 不 同 的 解释 。 

在 数据 仓库 环境 中 使 用 监控 程序 的 一 个 根本 问题 是 在 哪里 进行 监控 。 能 进行 监控 工作 的 
一 个 地 方 是 最 终 用 户 终端 。 这 是 做 监控 工作 的 一 个 方便 位 置 ， 因 为 这 里 有 很 多 空闲 的 机 器 周 
期 ， 并 且 在 这 里 进行 监控 工作 对 系统 性 能 只 有 很 小 的 影响 。 但 是 ， 在 最 终 用 户 终端 监控 系统 
意味 着 需要 对 每 个 被 监控 的 终端 进行 管理 。 在 一 个 单独 的 DSS 网 络 中 ， 可 能 有 多 达 10 000 台 终 
端 ， 试 图 对 每 个 终端 的 监控 工作 进行 管理 几乎 是 不 可 能 的 。 

另 一 个 途径 是 在 服务 器 层次 对 DSS 系统 进行 监控 。 在 查询 已 被 明确 表述 并 且 传 给 管理 数 
据 仓 库 的 服务 器 后 ， 开 始 进行 监控 。 毫 无 疑问 ， 在 此 处 管理 监控 程序 要 容易 得 多 。 但 是 存在 
系统 范围 内 性 能 下 降 的 很 大 可 能 性 。 因 为 监控 程序 使 用 服务 器 资源 ， 监 控 程 序 影响 整个 DSS 
数据 仓库 环境 的 工作 性 能 。 监 控 程 序 的 位 置 是 必须 仔细 考虑 的 重要 问题 ， 要 在 管理 的 方便 性 
和 降低 性 能 之 间 进 行 权衡 。 

监控 程序 最 有 效 的 用 途 之 一 是 能 够 将 今天 的 结果 与 每 天 平均 的 结果 进行 比较 。 发 现 异常 
时 ， 能 够 回答 “今天 与 每 天 平均 的 结果 有 什么 不 同 ” ”这 通常 是 有 好 处 的 。 在 大 多 数 情况 下 
会 发 现 性 能 变化 不 如 想像 中 那么 差 。 但 为 了 做 这 样 的 比较 ， 需 要 一 个 “每 天 平均 概况 ”。“ 每 
天 平均 概况 ”包括 了 DSS 环境 中 描述 一 天 情况 的 各 种 标准 的 重要 度量 指标 。 一 旦 对 当天 的 情 
况 进行 了 度量 ， 就 可 以 与 每 天 平均 概况 进行 比较 。 

当然 ， 每 天 平均 值 总 是 随时 间 变化 的 。 定 期 地 跟踪 这 些 变化 ， 就 能 观测 出 系统 长 期 变化 
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的 趋势 。 
1.7 小 结 


本 章 讨论 了 数据 仓库 的 起 源 及 其 所 适合 的 更 大 的 体系 结构 化 环境 。 这 个 体系 结构 化 环境 
伴随 着 信息 处 理 的 各 个 不 同 阶段 的 历史 一 直 演 化 发 展 。 体 系 结构 化 环境 中 的 数据 和 处 理 有 四 
个 层次 一 一 操作 层 、 数 据 仓 库 层 、 部 门 /数据 集 市 层 和 个 体 层 。 

数据 仓库 是 根据 源 自 操作 型 环境 中 的 应 用 数据 建立 起 来 的 。 把 这 些 应 用 数据 转 到 数据 仓 
库 中 时 要 进行 集成 。 数 据 集成 的 任务 是 非常 复杂 和 乏味 的 。 数 据 从 数据 仓库 流入 部 门 /数据 集 
市 环境 。 部 门 /数据 集 市 环境 中 的 数据 是 根据 部 门 的 独特 处 理 需 求 形成 的 。 

数据 仓库 是 在 一 种 与 传统 应 用 系统 使 用 的 开发 方式 完全 不 同 的 另 一 种 方式 指导 下 开发 的 。 
传统 应 用 是 按照 SDLC 开 发 生命 周期 开发 的 ， 而 数据 仓库 则 是 在 一 种 螺旋 式 开 发 方法 学 的 指导 
下 开发 的 。 螺 旋 式 开发 方法 要 求 先 开发 完成 数据 仓库 的 几 个 小 部 分 ， 然 后 对 数据 仓库 的 其 他 
小 部 分 以 反复 的 方式 进行 开发 。 

数据 仓库 环境 的 用 户 以 一 种 完全 不 同 的 方式 使 用 系统 。 数 据 仓 库 用 户 不 像 操作 型 环境 用 
户 那样 能 够 直接 定义 需求 ， 而 是 工作 在 一 种 发 现 的 模式 下 。 数 据 仓库 的 最 终 用 户 说 : “给 我 看 
一 下 我 说 我 想 要 的 东西 ， 然 后 ， 我 才能 告诉 你 我 真正 想 要 什么 。 
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数据 仓库 是 体系 结构 化 环境 的 核心 ， 是 决策 支持 系统 (DSS) 处 理 的 基础 。 因 为 在 数据 
仓库 环境 中 有 单一 集成 的 数据 源 (数据 仓库 )， 并 且 对 数据 仓库 中 的 粒度 化 的 数据 的 访问 非 党 
容易 ， 以 及 数据 仓库 本 身 就 是 数据 可 重用 性 和 一 致 性 的 基础 ， 所 以 ， 与 传统 数据 环境 相 比 ， 
在 数据 仓库 环境 中 DSS 分 析 员 的 工作 将 要 容易 得 多 。 

本 章 将 介绍 数据 仓库 的 一 些 非常 重要 的 特性 。 数 据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 
易 失 的 ， 随 时 间 变化 的 用 来 支持 管理 人 员 决策 的 数据 集合 。 数 据 仓库 包含 粒度 化 的 企业 数据 。 
数据 仓库 中 的 数据 可 以 用 于 很 多 不 同 的 目的 ， 包 括 为 我 们 现在 不 知道 的 未 来 需求 做 准备 。 

数据 仓库 的 面向 主题 性 ， 如 图 2-1 所 示 。 传 统 的 操作 型 系统 是 围绕 公司 的 功能 性 应 用 进行 
组 织 的 。 对 一 个 保险 公司 来 说 ， 应 用 问题 可 能 是 汽车 保险 、 健 康 保险 、 人 寿 保 险 与 意外 伤亡 
保险 。 公 司 的 主要 主题 域 可 能 是 顾客 、 保 险 单 、 保 险 费 与 素 赔 。 而 对 一 个 生产 商 来 说 ， 主 要 
主题 域 可 能 是 产品 、 定 单 、 销 售 商 、 材 料 单 与 原 货物 (raw goods)。 对 一 个 零售 商 来 说 ， 主 
要 主题 域 可 能 是 产品 、 库 存单 位 (SKU，Stock-Keeping Unit)、 销 售 、 销 售 商 等 。 不 同类 型 
的 公司 ， 其 主题 集合 是 不 同 的 。 


面向 主题 


图 2-1 数据 面向 主题 的 一 个 例子 


数据 仓库 的 第 二 个 显著 特点 是 集成 。 在 数据 仓库 的 所 有 特性 之 中 ， 集 成 是 最 重要 的 。 数 
据 仓库 中 的 数据 是 从 多 个 不 同 的 数据 源 传送 来 的 。 这 些 数 据 进入 数据 仓库 ， 就 进行 转换 ， 重 
新 格式 化 ， 重 新 排列 以 及 汇总 等 操作 。 得 到 的 结果 只 要 是 存在 于 数据 仓库 中 的 数据 就 具有 企 
业 的 单一 物理 映像 (single physical corporate image )。 图 2-2 说 明了 当 数 据 由 面向 应 用 的 操作 


- 
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型 环境 向 数据 仓库 传送 时 所 进行 的 集成 。 : 

应 用 设计 人 员 多 年 来 做 出 的 各 种 设计 决策 有 很 多 种 不 同 的 表示 方法 。 过 去 ， 应 用 设计 人 
员 建 立 一 个 应 用 时 ， 从 来 不 会 考虑 他 们 正在 操作 的 数据 在 将 来 的 一 天 将 不 得 不 与 其 他 数据 进 
行 集成 。 这 样 的 考虑 被 认为 是 无 稽 之 谈 。 这 样 做 也 导致 了 多 个 应 用 之 间 在 编码 、 命 名 习惯 、 
物理 属性 、 属 性 度量 单位 等 方面 不 存在 任何 一 致 性 。 每 个 应 用 设计 人 员 都 可 以 自由 地 做 出 上 自 
己 的 设计 决策 ， 结 果 就 是 任何 两 个 应 用 之 间 都 存在 着 巨大 的 差异 。 
































集成 
:型 环 | 
操作 型 环境 编码 数据 仓库 
应 用 A mf 
-一 一 一 一 
应 用 B 1,0 一 
应 用 cx,，y 加 
应 用 D 男 ， 女 图 
属性 度量 单位 
应 用 A 管道 (厘米 ) 一 一 一 一 
应 用 B 管道 (英寸 ) 一 管道 (大米 ) 
应 用 C 管道 ( 千 立方 英尺 ) 一 一 一 一 一 一 国 
应 用 D 管道 ( 码 ) 如 
多 个 数据 源 
应 用 A 描述 — 
应 用 B 描述 一 一 一 一 一 、 
应 用 C 描述 一 到 人 描述 
应 用 D 描述 
冲突 的 关键 字 
应 用 A 关键 字 char(10) -nn 
应 用 B 关键 字 dec fixed(9,2) 一 人 2 
应 用 C 关键 字 pic “9999999， [| 关键 字 char (12) 











应 用 D 关键 字 char(12) 
图 2-2 集成 问题 


当 数 据 进 入 数据 仓库 时 ， 要 采用 某 种 方法 来 消除 应 用 层 的 许多 不 一 致 性 。 例 如 ， 在 图 2-2 
中 ， 考 虚 关 于“ 性别” 的 编码 ， 在 数据 仓库 中 数据 编码 为 m/f 还 是 1/0 并 不 重要 。 重 要 的 是 ,无 
论 方法 或 源 应 用 是 什么 ， 在 数据 仓库 中 应 该 一 致 地 进行 编码 。 如 果 应 用 数据 编码 为 X/Y， 当 其 
进入 数据 仓库 时 就 要 进行 转换 。 对 所 有 的 应 用 设计 问题 ， 都 要 考虑 同样 的 一 致 性 处 理 ， 比 如 
命名 习惯 、 关 键 字 结构 、 属 性 度量 单位 以 及 数据 物理 特点 等 。 

数据 仓库 的 第 三 个 重要 特性 是 非 易 失 的 。 图 2-3 说 明了 数据 的 非 易 失 性 和 对 操作 型 数据 的 
访问 和 处 理 ， 一 般 按 一 次 一 条 记录 的 方式 进行 。 操 作 型 环境 中 的 数据 一 般 是 要 周期 性 地 更 新 
的 ， 但 数据 仓库 中 的 数据 呈现 出 一 组 非常 不 同 的 特性 。 数 据 仓库 的 数据 通常 《但 不 总 是 ) 以 
批量 方式 载 入 与 访问 , 但 在 数据 仓库 环境 中 并 不 进行 (一般 意 义 上 的 ) 数据 更 新 。 数 据 仓库 
中 的 数据 在 进行 装载 时 是 以 静态 快照 的 格式 进行 的 。 当 产生 后 继 变化 时 ， 一 个 新 的 快照 记录 
就 会 写 人 数据 仓库 。 这 样 ， 在 数据 仓库 中 就 保存 了 数据 的 历史 状况 。 

数据 仓库 的 最 后 一 个 显著 特性 是 随时 间 变 化 。 时 变性 的 意思 是 数据 仓库 中 的 每 个 数据 单 
元 只 是 在 某 一 时 间 是 准确 的 。 在 一 些 情况 下 ， 记 录 中 加 有 时 发， 而 在 另外 一 些 情况 下 记录 则 
包含 一 个 事务 的 时 间 。 总 之 ， 任 何 情况 下 ， 记 录 都 包含 某 种 形式 的 时 间 标 志 用 以 说 明 数 据 在 
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那 一 时 间 是 准确 的 。 图 2-4 给 出 了 数据 仓库 中 的 数据 随时 间 变 化 特性 的 几 种 表示 方法 。 


非 易 失 性 
操作 型 环境 数据 仓库 
2 FT 
访问 
删除 删除 
载 人 
插入 修改 访问 
数据 的 逐个 记录 方式 处 理 数据 的 批量 载 入 /访问 


图 2-3 非 易 失 性 问题 


随时 间 变 化 
操作 型 环境 数据 仓库 
“时 间 范 围 一 一 当前 到 60~90 天 “时 间 范 围 一 一 5~10 年 
。 记 录 更 新 “数据 的 复杂 快照 


“关键 字 结构 可 能 包括 /也 可 能 不 包括 时 间 元 素 “关键 字 结构 包括 时 间 元 素 
图 2-4 随时 间 变 化 的 问题 


不 同 的 环境 中 有 与 其 相关 的 不 同 的 时 间 范 围 。 时 间 范 围 是 环境 中 表示 时 间 的 长 度 参数 。 
数据 仓库 中 的 数据 时 间 范 围 要 远 远 长 于 操作 型 系统 中 的 数据 范围 。 操 作 型 系统 的 时 间 范 围 一 
般 是 60 ~ 90 天 ,而 数据 仓库 中 数据 的 时 间 范 围 通常 是 5 ~ 10 年。 由 于 这 种 在 时 间 范 围 上 的 差异 ， 
数据 仓库 含有 比 任何 其 他 环境 中 都 多 的 历史 数据 。 

我 们 可 以 扩充 数据 仓库 使 其 包含 “高 速 缓冲 ”或 “溢出 ”区 域 ， 通 常 称 为 近 线 存 储 。 近 
线 存 储 中 的 数据 仅仅 是 数据 仓库 中 数据 的 扩充 。 使 用 近 线 存储 开销 很 小 。 近 线 存储 的 时 间 范 
围 几 乎 是 无 限 的 一 一 10 年 ，15 年 ，20 年 ， 甚 至 更 长 。 

操作 型 数据 库 含 有 当前 值 数据 ， 这 些 数据 的 准确 性 在 访问 时 是 有 效 的 。 例 如 ， 银 行 能 及 
时 地 知道 每 个 储户 在 任何 时 间 的 存款 数目 ; 保险 公司 在 任何 时 候 都 能 及 时 地 知道 有 哪些 保险 
单 有 效 ; 而 航空 公司 能 及 时 地 知道 谁 预定 了 某 个 航班 。 这样， 当前 值 数据 随 业 务 状况 变化 而 
被 更 新 。 银 行 余额 在 用 户 存 和 时 修改 。 保 险 所 包含 的 项 在 顾客 撤销 其 中 某 项 时 修改 。 航 空 公 
司 在 乘客 订 了 机 票 后 从 表 中 删 掉 一 个 座位 。 而 数据 仓库 中 的 数据 与 当前 值 数 据 不 同 。 数 据 仓 
库 中 的 数据 仅仅 是 一 系列 在 某 时 刻 生 成 的 复杂 的 快照 。 这 一 系列 快照 使 数据 仓库 保留 了 活动 
和 事件 的 历史 记录 ， 这 在 那些 只 能 找到 当前 值 的 环境 中 是 绝 不 可 能 的 。 

操作 型 数据 的 关键 字 结 构 可 能 包含 也 可 能 不 包含 时 间 元 素 ， 如 年 、 月 、 日 等 。 而 数据 仓 
库 的 关键 字 结 构 总 是 包含 时 间 元 素 。 数 据 仓库 记录 中 嵌入 的 时 间 可 以 采用 多 种 形式 ， 如 为 每 
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个 记录 加 时 惟 ， 为 整个 数据 库 加 时 规 ， 等 等 。 
2.1 数据 仓库 的 结构 


图 2-5 表 明 在 数据 仓库 环境 中 数据 存在 着 不 同 的 细节 级 : 早期 细节 级 (通常 是 存储 在 备用 
海量 存储 器 上 )、 当 前 细节 级 、 轻 度 综 合 数据 级 (数据 集 市 级 ) 以 及 高 度 综合 数据 级 。 数 据 由 
操作 型 环境 导入 数据 仓库 。 相 当 数 量 的 数据 转换 通常 发 生 在 数据 由 操作 层 向 数据 仓库 层 传输 
的 过 程 中 。 


生产 线 每 月 销售 
1981~1992 


高 度 综合 级 







轻 度 综合 级 
(数据 集 市 ) 


子 生产 线 每 周 销售 
1984~1992 


往 伙计 


当前 细节 级 销售 细节 
1990~1991 


销售 细节 


操作 型 转换 星期 细节 级 1984~1989 


图 2-5 数据 仓库 的 结构 


一 旦 数据 过 期 ， 就 由 当前 细节 级 进入 早期 细节 级 。 综 合 后 的 数据 由 当前 细节 级 进入 轻 度 
综合 数据 级 ， 然 后 从 轻 度 综合 数据 级 再 进入 高 度 综合 数据 级 。 


2.2 面向 主题 


数据 仓库 面向 在 高 层 企业 数据 模型 中 已 定义 好 的 企业 主题 域 。 典 型 的 主题 域 有 : 

“顾客 。 

* 产品 。 

“交易 或 活动 。 

“政策 。 

“索赔 。 

* 账目 。 

在 数据 仓库 中 ， 每 一 个 主要 主题 域 都 是 以 一 组 相关 的 表 来 具体 实现 的 。 一 个 主题 域 可 能 
由 10 个 ，100 个 或 更 多 的 相互 关联 的 物理 表 构 成 。 例 如 ， 一 个 顾客 主题 域 的 实现 可 能 如 图 2-6 
所 示 。 

在 图 2-6 中 有 五 个 相关 的 物理 表 ， 每 个 表 设 计 来 实现 顾客 这 个 主要 主题 域 的 一 部 分 。 其 中 
有 一 个 定义 于 1985 年 ~ 1987 年 的 顾客 基本 信息 表 ， 另 一 个 是 定义 于 1988 年 ~ 1990 年 的 顾客 基 
本 信息 表 。 还 有 一 个 1986 年 ~ 1989 年 间 累 积 起 来 的 顾客 活动 表 。 每 个 月 根据 每 一 顾客 当月 的 
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活动 情况 写 人 一 条 汇总 记录 。 
顾客 主题 


基本 顾客 数据 基本 顾客 数据 顾客 活动 
1985~1987 1988~1990 1986~1989 


顾客 ID 

月 份 

交易 数目 
平均 交易 额 
最 高 交易 额 
最 低 交 易 额 
已 取消 交易 数 


















顾客 活动 细节 顾客 活动 细节 
1987~1989 1990~1991 











图 2-6 数据 仓库 中 的 数据 用 主要 主题 域 ( 这 里 是 顾客 ) 来 组 织 


还 有 1987 年 ~ 1989 年 顾客 的 详细 活动 文件 和 1990 年 ~ 1991 年 的 其 他 文件 。 文 件 中 数据 的 
定义 因 年 份 不 同 而 不 同 。 

顾客 主题 域 的 所 有 物理 表 通 过 一 个 公共 关键 字 联 系 起 来 ， 图 2-7 表 明了 用 公共 关键 字 顾 客 
标识 号 (顾客 ID) 将 在 顾客 主题 域 中 所 找到 的 所 有 数据 联系 起 来 。 顾 客 主题 域 另 一 个 有 趣 的 
特征 是 其 数据 可 以 存储 在 不 同 的 介质 上 ， 如 图 2-8 所 示 。 即 使 一 个 物理 表 与 存储 在 磁盘 上 的 其 
他 数据 相关 联 ， 也 并 不 能 说 明 这 个 表 就 一 定 娄 存储 在 磁盘 上 。 

图 2-8 表 明 一 些 相 互 关联 的 主题 域 数据 存储 在 直接 存 取 存储 设备 (DASD) 上 ， 还 有 一 些 
数据 存储 在 磁带 上 。 数 据 存储 在 不 同 介质 上 意味 着 在 数据 仓库 中 可 能 有 多 个 数据 库 管 理 系统 
(DBMS ) 对 数据 进行 管理 ， 或 者 某 些 数据 根本 没有 被 某 个 DBMS 管 理 。 不 能 仅仅 因为 数据 存 
储 在 磁带 或 其 他 存储 介质 上 而 不 在 磁盘 上 ， 就 认为 它 不 是 数据 仓库 的 一 部 分 。 

访问 频繁 且 占 用 存储 空间 小 的 数据 存放 在 快速 且 相 对 昂贵 的 存储 介质 上 ; 访问 较 少 且 占 
用 存储 空间 大 的 数据 存放 在 廉价 、 慢 速 的 存储 介质 上 。 一 般 说 来 ， 早 期 的 数据 访问 机 会 较 少 ， 
当然 也 并 不 总 是 如 此 。 通 常 ， 早 期 数据 存储 在 磁盘 以 外 的 介质 上 。 

DASD 和 磁带 是 数据 仓库 中 最 多 应 用 的 两 种 数据 存储 介质 ， 但 也 并 非 只 能 用 这 些 介 质 ， 男 
外 两 种 不 容 忽 视 的 介质 是 缩微 胶片 和 光盘 。 缩 微 胶 片 适 于 存储 详细 的 且 无 需 在 电子 媒体 中 再 
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次 复制 的 记录 。 合 法 的 记录 经 常 在 缩微 胶片 上 存放 一 个 不 确定 的 上 时期。 光盘 特别 适合 于 用 作 
数据 仓库 的 存储 介质 ， 因 为 它 廉价 、 速 度 较 快 且 能 存储 大 量 的 数据 。 另 一 点 是 因为 数据 仓库 
中 的 数据 一 旦 载 人 几乎 从 来 不 用 更 新 ， 这 个 特征 使 光盘 存储 成 为 数据 仓库 非常 理想 的 选择 。 


月 份 

交易 数目 
平均 交易 额 
最 高 交易 额 
最 低 交 易 额 
已 取消 交易 数 





图 2-7 属于 同一 主题 域 由 一 个 公共 关键 字 联 系 起 来 的 数据 集合 


顾客 








基本 顾客 数据 | 
1988~1990 ; 


基本 顾客 数据 顾客 活动 
1985~1987 1986~1989 


i 


顾客 活动 细节 ”顾客 活动 细节 
1987~1989 1990~1991 







图 2-8 数据 仓库 中 的 主题 域 可 能 包含 不 同 介质 上 的 数据 


这 些 文件 (如 图 2-8 所 示 ) 另 一 个 有 趣 的 特征 是 相同 的 数据 既 有 综合 级 ， 又 有 细节 级 。 每 
月 活动 是 综合 的 。 同时， 支持 每 月 活动 的 细节 存放 在 数据 的 磁带 级 上 。 这 就 是 本 章 后 面 要 讨 
论 的 “粒度 转换 ”的 一 种 形式 。 
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当 数 据 围绕 主题 (这 里 是 顾客 ) 组 织 时 ， 每 个 关键 字 都 有 一 个 时 间 元 素 。 如 图 2-9 所 示 。 

一 些 表 是 以 “起 始 日 期 到 结束 日 期 ”为 基础 组 织 的 ， 称 为 数据 的 连续 组 织 。 另 外 一 些 表 
是 在 “每 月 累积 ”的 基础 上 进行 组 织 的 。 还 有 一 些 是 在 “记录 或 活动 的 单独 日 期 ”的 基础 上 
组 织 的 。 但 是 ， 所 有 记录 都 有 某 种 形式 的 日 期 连接 到 关键 字 ， 通 常 是 关键 字 的 较 低 的 部 分 。 





图 2-9 数据 仓库 中 的 每 个 表 都 有 时 间 元 素 作为 关键 字 结 构 的 一 部 分 (通常 是 较 低 的 部 分 ) 
2.3 第 1 天 到 第 n 天 的 现象 


建立 数据 仓库 不 是 一 跷 而 就 的 。 相 反 ， 数 据 仓库 只 能 一 步 一 步 地 进行 设计 并 载 入 数据 ， 即 
它 是 进化 性 的 ， 而 非 革 命 性 的 。 一 下 子 完整 地 建立 一 个 数据 仓库 的 费用 、 所 需 的 资源 和 对 环 
境 的 破坏 ， 都 决定 了 数据 仓库 的 建立 要 采用 有 序 地 反复 和 一 步 一 步 进行 的 方式 。 对 于 数据 仓 
库 开发 而 言 ， 爆 炸 式 的 开发 方法 只 会 带 来 灾难 性 的 后 果 ， 这 种 方法 永远 都 不 会 是 合适 的 选择 。 

图 2-10 说 明了 建立 数据 仓库 的 一 个 典型 过 程 。 第 1 天 ， 熟悉 主要 进行 操作 型 事务 处 理 的 原 
有 系统 。 第 2 天 ， 往 数据 仓库 中 的 第 一 个 主题 域 的 最 初 儿 个 表 载 人 数据 。 此 时 ， 会 引发 用 户 的 
一 定 的 好 奇 ， 用 户 开始 见 到 数据 仓库 和 分 析 型 处 理 。 

第 3 天 ， 更 多 的 数据 载 入 数据 仓库 ， 并 且 随 着 数据 量 增 大 ， 将 吸引 更 多 的 用 户 。 一 旦 用 户 
发 现 较 容易 访问 到 集成 数据 源 ， 并 且 这 个 数据 源 存 有 过 去 各 个 时 间 的 历史 数据 ， 就 不 仅仅 是 
好 奇 了 。 大 约 此 时 ， 认 真 的 DSS 分 析 员 渐渐 被 吸引 到 数据 仓库 中 。 

第 4 天 ， 随 着 更 多 的 数据 载 和 数据 仓库 ， 一 批 过 去 存储 在 操作 型 环境 的 数据 被 适当 地 放 人 入 
数据 仓库 中 。 现 在 ， 我 们 “发 现 ” 数 据 仓 库 是 可 用 来 进行 分 析 型 处 理 的 信息 源 。 各 种 各 样 的 
DSS 应 用 出 现 了 。 的 确 ， 伴 随 着 目前 存 于 数据 仓库 的 大 规模 数据 ， 此 时 开始 出 现 如 此 多 的 用 
户 和 如 此 多 的 处 理 请 求 ， 以 至 于 一 些 用 户 因 数据 仓库 非常 难以 进入 而 感到 厌烦 。 进 入 数据 仓 
库 的 竞争 成 为 使 用 数据 仓库 的 障碍 。 

第 5 天 ， 部 门 数据 库 (数据 集 市 ， 或 OLAP) 开始 兴起 ， 各 部 门 发 现 通过 把 数据 从 数据 仓 
库 调 和 它们 自己 的 部 门 处 理 环境 ， 会 使 它们 的 处 理 成 本 降低 且 容 易 进行 。 随 着 数据 到 达 部 门 
级 ， 也 会 吸引 几 个 DSS 分 析 员 。 





数据 合 妾 球 域 27 


第 天 ”989 


B99 
现 有 系统 
9 数据 仓库 
第 2 天 99 CO 六 





县 
.C20 局 4 
第 天 6Be 一 一 人 更 多 的 主题 
现 有 系统 oO 
第 4 天 ”99 人 a 
一 一 -一 C 一 数据 仓库 开始 完全 
现 有 系 载 人 ,访问 到 它 成 
有 系统 4 为 一 个 问题 
-Doo 一 AE 六 人 
第 5 天 So、 关 Ey < 一 如 数据 仓库 增长， 部 
现 有 系统 一 -天 Sb 门 级 处 理 开 始 兴起 


_ 更 多 的 数据 注入 数据 

YiK 58 一 一 2 一 太一 类 他 订 ,由 于 部 站 

操作 型 处 理 层 容易 得 到 ， 更 多 注意 
一 一 oo, 力 集中 在 那里 


-六 
第 rn 大 oo ,号 | 
邮局 = 吴 < 
CD 和 D 以 
[| ~ 


图 2-10 第 1 天 到 第 n 天 的 现象 


第 6 天 ， 部 门 系 统 出 现 繁忙 ， 多 维系 统 出 现 了 。 得 到 部 门 级 数据 比 获得 数据 仓库 的 数据 成 
本 更 低 、 更 快 、 更 容易 。 很 快 最 终 用 户 就 放弃 了 从 数据 仓库 中 去 取 细 节 数 据 ， 转 去 进行 部 门 
级 处 理 。 

第 4 天， 这 种 体系 结构 得 到 充分 发 展 。 生 产 系 统 的 原始 集合 中 只 剩 下 操作 型 处 理 。 数 据 仓 
库 具 有 丰富 的 数据 ， 并 有 一 些 数 据 仓库 的 直接 用 户 和 许多 部 门 数据 库 。 因 为 在 部 门 级 上 获得 
处 理 所 需 要 的 数据 既 容 易 又 便宜 ， 所 以 大 部 分 DSS 分 析 处 理 都 在 部 门 级 进行 。 

当然 ， 从 第 1 天 到 第 x 天 的 演变 需要 很 长 的 上 时间， 通常 不 是 以 天 来 计 ， 而 是 需要 几 年 。 并 
且 在 从 第 1 天 到 第 n 天 的 处 理 过 程 中 ，DSS 环 境 也 在 不 断 地 提高 和 起 作用 。 

这 时 ， 好 像 蜂 蛛网 以 一 种 更 大 、 更 宏大 的 形式 重新 出 现在 我 们 面前 。 虽 然 解 释 起 来 相当 
复杂 ， 但 事实 完全 不 是 这 样 的 。 要 进一步 了 解 深入 为 什么 体系 结构 化 环境 不 只 是 重建 起 来 的 
蛛 网 环境 ， 请 参考 “The Cabinet Effect”,，Data Base Programming Design, May 1991。 

这 里 介绍 的 从 第 1 天 到 第 ”天 的 现象 是 建立 数据 仓库 的 一 种 理想 的 方式 。 实 际 还 有 很 多 其 
他 方式 。 首 先 建立 数据 集 市 就 是 其 中 一 种 ， 但 这 种 方式 缺少 远见 ， 而 且 会 导致 大 量 浪费 。 
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2.4 粒度 


粒度 问题 是 设计 数据 仓库 的 最 重要 的 方面 。 确 实 ， 粒 度 问题 对 数据 仓库 环境 所 处 的 整个 
体系 结构 都 有 影响 。 粒 度 指 的 是 数据 仓库 中 数据 单元 的 细节 程度 或 综合 程度 的 级 别 。 

细节 程度 越 高 ， 粒 度 级 就 越 低 ; 相反 ， 细 节 程 度 越 低 ， 粒 度 级 就 越 高 。 例 如 ， 一 个 简单 
的 交易 处 于 低 粒度 级 ; 而 每 月 所 有 交易 的 汇总 则 处 于 一 个 高 粒度 级 。 

数据 的 粒度 一 直 以 来 都 是 一 个 主要 的 设计 问题 。 在 早期 建立 的 操作 型 系统 中 ， 就 考虑 到 
了 粒度 问题 。 当 更 新 细节 数据 时 ， 几 乎 总 是 假定 把 它 存放 在 最 低 粒度 级 上 。 但 在 数据 仓库 环 
境 中 ， 对 粒度 不 作 这 种 假设 。 图 2-11 说 明了 粒度 问题 。 





粒度 一 一 细节 级 别 
高 细节 级 一 一 低 粒度 级 低 细节 级 一 一 高 粒度 级 
例如 : 一 个 顾客 一 个 月 例如 : 一 个 顾客 一 个 月 
内 所 有 通话 的 细节 内 通话 的 综合 


a) 





数据 分 区 
。 将 数据 划分 成 小 的 单元 
。 在 应 用 层 或 DBMS 层 进行 








难以 管理 


b) 





图 2-11 数据 仓库 主要 设计 问题 : 粒度 、 分 区 和 适当 设计 


在 数据 仓库 环境 中 粒度 之 所 以 是 最 重要 的 设计 问题 ， 是 因为 它 会 深刻 地 影响 存放 在 数据 
仓库 中 的 数据 量 的 大 小 以 及 数据 仓库 所 能 回答 的 查询 类 型 。 数 据 仓 库 中 数据 量 的 大 小 与 查询 
的 细节 程度 成 反比 。 粒 度 级 别 越 低 ， 查 询 范 围 越 广泛 ， 反 之 ， 粒 度 级 别 越 高 ， 查 询 越 少 。 

大 多 数 情况 下 ， 数 据 在 进入 数据 仓库 时 的 粒度 级 别 太 高 ， 这 意味 着 在 数据 存 和 数据 仓库 
之 前 ， 开 发 人 员 必 须 花 费 大 量 设 计 和 开发 资源 对 这 些 数 据 进行 拆 分 。 然 而 也 有 一 些 时 候 ， 数 
据 进 入 数据 仓库 时 的 粒度 级 别 太 低 。 在 网 络 电子 商务 环境 中 产生 的 网 络 日 志 数 据 (通常 称 为 
“点 击 流 数 据 ”) 就 是 一 个 粒度 级 别 太 低 的 例子 。 要 使 得 网 络 日 志 中 的 点 击 流 数 据 粒度 适合 于 
数据 仓库 环境 ， 必 须 先 对 这 些 数据 进行 编辑 ， 过 滤 和 汇总 。 
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2.4.1 粒度 带 来 的 好 处 


许多 企业 见 到 数据 仓库 对 各 种 不 同类 型 DSS 处 理 提 供 了 一 个 有 力 的 基础 平台 后 都 十 分 惊 
异 。 这 些 机 构 最 初 可 能 只 是 为 某 一 个 用 途 建 立 了 数据 仓库 ， 但 他 们 很 快 发 现 数据 仓库 能 同样 
用 于 其 他 DSS 处 理 。 虽 然 建造 数据 仓库 的 基础 结构 非常 昂贵 和 困难 ， 但 却 是 一 劳 了 永 逸 的 事 。 
合理 建造 的 数据 仓库 将 会 为 企业 提供 一 个 非常 灵活 的 可 重用 基础 平台 。 

数据 仓库 中 粒度 化 的 数据 是 重用 性 的 关键 ， 因 为 它 可 以 由 众多 用 户 以 不 同方 式 使 用 。 例 
如 在 公司 内 ， 同 一 个 数据 可 同时 满足 市 场 、 销 信和 财务 部 门 的 需要 。 三 个 部 门 见 到 的 基本 数 
据 是 相同 的 。 市 场 部 可 能 想 了 解 各 地 区 的 每 月 销售 情况 ， 销 售 部 可 能 想 了 解 每 周 各 地 区 不 同 
销售 人 员 的 销售 情况 ， 财 务 部 可 能 想 了 解 各 生产 线 的 可 认可 的 季度 收入 情况 。 尽 管 有 略微 的 
不 同 ， 所 有 这 三 种 类 型 的 信息 都 紧密 相 联 。 数 据 仓库 使 得 不 同 的 部 门 可 以 从 它们 和 希望 的 角度 
来 观察 数据 。 

可 以 从 不 同 角度 观察 数据 只 是 数据 仓库 这 个 可 靠 基 础 平台 带 来 的 好 处 之 一 。 另 一 个 好 处 
是 ， 如 果 需 要 的 话 ， 可 以 利用 数据 仓库 对 数据 进行 一 致 性 协调 。 因 为 数据 仓库 是 所 有 人 都 依 
赖 的 单一 基础 ， 当 需要 对 两 个 或 多 个 不 同 部 门 的 分 析 结 果 的 差异 进行 解释 时 ， 这 种 一 致 性 协 
调 过 程 就 相对 简单 多 了 。 

数据 仓库 低级 别 粒度 的 另 一 个 好 处 是 灵活 性 。 假 设 市 场 部 想 更 改 他 们 观察 数据 的 角度 ， 
由 于 已 经 有 了 数据 仓库 这 个 基础 平台 这 种 更 改 就 可 以 很 容易 地 完成 。 

粒度 化 的 数据 带 来 的 另 一 个 好 处 是 其 中 包含 了 整个 企业 的 活动 和 事件 的 历史 。 而 且 粒 度 
级 别 足 够 详细 ， 使 得 整个 企业 的 数据 为 满足 不 同 的 需要 而 进行 重 构 。 

或 许 ， 数 据 仓库 这 个 基础 平台 可 能 带 来 的 最 大 好 处 就 是 可 以 容纳 将 来 未 知 的 需求 。 假 设 
对 观察 数据 有 新 的 需求 ， 比 如 美国 国会 通过 了 新 法 案 ， 或 石油 输出 国 组 织 《OPEC) 修改 了 他 
们 的 石油 分 配 规则 ， 或 是 股市 暴跌 。 由 于 这 些 改变 不 可 避免 ， 于 是 对 信息 的 新 需求 也 就 源源 
不 断 。 数 据 仓 库 可 以 使 企业 对 这 些 改变 很 快 地 做 出 反应 。 当 产生 新 的 需求 并 且 需 要 信息 时 ， 
数据 仓库 总 是 为 分 析 做 好 了 准备 ， 于 是 企业 也 就 准备 应 对 处 理 新 需求 。 


2.4.2 粒度 的 一 个 例子 


图 2-12 表 示 了 粒度 问题 的 一 个 例子 。 左 边 是 -个 低 粒 度 级 ， 每 个 活动 《这 里 是 一 次 通话 ) 
都 详细 记录 下 来 。 到 月 底 ， 每 个 顾客 平均 有 200 条 记录 (全 月 中 每 次 通话 都 有 一 条 记录 )， 因 
而 ， 总 共 大 约 需要 40 000 个 字 节 。 

图 的 右边 是 一 个 高 粒度 级 。 高 细节 级 指 的 是 低 粒 度 级 ; 低 细节 级 指 的 是 高 粒度 级 。 示 于 
图 2-12 (右边 ) 的 数据 处 于 高 粒度 级 ， 表 示 的 是 汇总 后 的 信息 。 其 中 每 条 记录 汇总 了 一 名 顾 
客 一 个 月 来 的 活动 情况 ， 大 约 需 要 200 字 市。 

显然 ， 如 果 数 据 仓库 的 空间 很 有 限 的 话 (数据 量 总 是 数据 仓库 中 的 首要 问题 )， 用 高 粒度 
级 表示 数据 将 比 用 低 粒度 级 表示 数据 的 效率 要 高 得 多 。 

高 粒度 级 不 但 只 需要 少 得 多 的 字 节 来 存放 数据 ,而 且 只 需要 较 少 的 索引 项 。 然 而 ， 数 据 
量 大 小 和 原始 空间 问题 不 是 仅 有 的 应 考虑 的 问题 。 访 问 大 量 数据 所 需 的 处 理 能 力 的 程度 同样 
也 是 应 考虑 的 一 个 因素 。 

因此 , 数据 压缩 在 数据 仓库 中 非常 有 用 。 数 据 被 压缩 后 会 大 大 节省 所 用 的 PASD 存 储 空 间 ， 
市 省 所 需 的 索引 项 ， 以 及 节省 处 理 数 据 的 处 理 器 资源 。 
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粒度 
高 细节 级 低 细 节 级 
例如 : 一 个 顾客 一 个 例如 : 一 个 顾客 一 个 
月 中 每 次 通话 的 细节 月 通话 的 综合 
” 
每 月 40 000 字 节 | 200 字 市 
每 月 200 个 记录 每 月 一 个 记录 
01 活动 记录 
02 月 份 
02 通 话 总 次 数 
02 平 均 时 长 
02 接 线 员 帮助 02 长 途 次 数 
02 电 话 接 通 状态 02 中 断 时 长 
02 通话 时 间 
02 长 途 
02 移 动 电话 
02 特 别 折扣 率 





图 2-12 确定 粒度 级 别 是 数据 仓库 环境 中 最 重要 的 设计 问题 


但 是 当 提 高 粒度 级 时 ， 数 据 压 缩 会 引发 另 一 个 问题 ， 如 图 2-13 所 示 ， 我 们 必须 做 出 权衡 。 
提高 数据 粒度 级 时 ， 数 据 所 能 回答 查询 的 能 力 就 会 随 之 降低 。 换 句 话 说， 在 一 个 很 低 的 粒度 
级 ， 你 实际 上 可 以 回答 任何 问题 ; 但 高 粒度 级 限制 了 数据 所 能 处 理 的 问题 的 数量 。 

确定 体系 结构 中 的 哪些 实体 需要 从 数据 仓库 获取 数据 是 粒度 设计 时 应 当 考虑 的 另外 一 个 
问题 。 每 个 实体 都 有 特殊 的 要 求 ， 因 此 ， 数 据 仓库 设计 必须 满足 这 些 实体 需要 的 最 低 粒度 级 。 

为 了 说 明 粒 度 对 查询 回答 能 力 的 影响 ， 在 图 2-13 中 给 出 了 这 样 的 查询 : “Cass Squire 上 昨 
期 给 他 在 波士顿 的 女友 打 过 电话 没有 ? ” 

在 低 粒 度 级 上 ， 这 个 问题 是 可 以 回答 的 。 虽 然 这 种 回答 将 花费 大 量 资源 去 查阅 大 量 的 记 
录 ， 但 是 Cass 上 周 是 否 给 他 在 波士顿 的 女友 打 了 电话 最 终 总 是 可 以 确定 的 。 

然而 ， 在 高 粒度 级 上 就 无 法 明确 地 回答 这 个 问题 。 假 如 在 数据 仓库 中 存放 的 只 是 Cass 
Squire 某 星期 或 某 月 打 的 电话 总 数 ， 那 么 就 不 能 确定 其 中 是 否 有 一 个 电话 是 打 往 波士顿 的 。 

不 过 ， 在 数据 仓库 环境 中 进行 DSS 处 理 时 ， 对 单个 事件 进行 检查 的 情况 是 很 少 的 。 通 常 
是 查看 某 种 数据 集合 ， 完 成 这 种 检查 意味 着 要 查阅 大 量 记录 。 

例如 ， 假 设 提出 下 面 的 聚集 型 查询 问题 : “上 个 月 人 们 平均 从 华盛顿 打出 多 少 个 长 途 
电话 ? 

在 一 个 DSS 环境 中 这 种 查询 类 型 是 非常 常见 的 。 当 然 ， 它 既 可 以 在 高 粒度 级 上 也 可 以 在 
低 粒度 级 上 得 到 回答 。 但 在 回答 这 个 问题 时 ， 在 不 同 的 粒度 级 上 所 使 用 的 资源 具有 相当 大 的 
差异 。 在 低 粒 度 级 上 回答 这 个 问题 要 用 非常 细节 的 数据 从 而 需要 大 量 资源 ， 所 以 需要 查询 每 
一 个 记录 来 回答 这 个 问题 。 

但 在 高 粒度 级 上 ， 由 于 数据 经 过 压缩 更 为 简洁 ， 所 以 能 够 很 快 提供 一 个 答案 。 如 果 在 高 
粒度 级 上 包括 了 足够 的 细节 ， 则 使 用 高 粒度 级 数据 的 效率 将 会 高 得 多 。 
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粒度 

低 细节 级 
例如 : 一 个 顾客 一 个 例如 : 一 个 顾客 一 个 

月 中 每 次 通话 的 细节 月 通话 的 综合 

“Cass Squire 上 星期 给 他 在 波 士 
顿 的 女友 打 过 电话 没有 ? ” 
。 能 回答 ， 尽 管 需要 。 根 本 不 能 回答 。 
一 定数 量 的 检索 细节 已 经 丢失 


但 寻找 单个 记录 的 
事件 是 十 分 罕见 的 。 
“上 个 月 ， 华 盛 顿 人 平 
均 打 出 多 少 个 长 途 ?” WW 


搜寻 175 000 000 个 记录 搜寻 1 750 000 个 记录 
进行 45 000 000 次 IO 进行 450 000 次 IO 





图 2-13 粒度 级 别 对 于 能 回答 什么 问题 和 回答 问题 所 需 资源 多 少 有 深刻 的 影响 
图 2-14 给 出 了 确定 数据 粒度 级 时 需要 权衡 的 因素 。 在 设计 和 构造 数据 仓库 之 初 必须 仔细 
权衡 各 种 因素 。 
高 细节 级 低 细节 级 


灵活 一 一 易于 处 理 的 
足够 小 的 数据 量 


数据 量 小 













细节 级 一 一 能 回答 任 
何 问题 


数据 量 大 












图 2-14 粒度 的 权衡 是 固有 的 ， 所 以 大 多 数 企 业 的 最 佳 解决 办 法 是 采用 多 重 粒度 级 的 形式 


2.4.3 双重 粒度 


很 多 时 候 ， 十 分 需要 提高 存储 与 访问 数据 的 效率 ， 以 及 能 非常 详细 地 分 析 数据 的 能 力 
( 换 名 话说， 企业 想 有 自己 的 蛋糕 ， 并 且 吃 了 它 ! )。 当 一 个 企业 或 组 织 的 数据 仓库 中 拥有 大 
量 数据 时 ， 在 数据 仓库 的 细节 部 分 考虑 使 用 双重 (或 多 重 ) 粒度 级 别 是 很 有 意义 的 。 事 实 上 ， 
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总 是 需要 多 个 粒度 级 别 而 不 是 一 个 粒度 级 别 ， 双 重 粒 度 级 别 设计 应 该 是 几乎 每 个 机 构 的 默认 
选择 。 图 2-15 表 明了 在 数据 仓库 的 细节 层 上 的 两 种 粒度 级 别 。 

图 2-15 (一 家 电话 公司 ) 中 称 为 双重 粒度 级 别 的 设计 ， 能 满足 大 多 数 机 构 的 需要 。 在 操 
作 层 是 大 量 的 细节 ， 其 中 大 部 分 细节 是 为 了 满足 记 账 系统 的 需求 。 多 达 30 多 天 的 细节 存放 在 
操作 层 中 。 





一 个 电话 公司 
双重 粒度 
*，30 大 的 详细 通话 历史 。 10 年 的 通话 历史 。 逐个 地 区 的 活动 分 析 处 理 
,其 他 顾客 活动 
知 度 综合 
在 数据 仓库 层 
真实 档案 管理 大 量 数据 


图 2-15 大 量 数据 使 得 大 部 分 企业 在 数据 仓库 中 需要 使 用 两 个 粒度 级 


在 这 个 例子 中 的 数据 仓库 包括 两 种 类 型 的 数据 : 轻 度 综合 数据 和 “真实 档案 ”细节 数据 。 
数据 仓库 中 的 数据 能 回溯 十 年 。 从 数据 仓库 中 提取 的 数据 是 流向 电话 公司 不 同 地 区 的 “地 区 ” 
数据 ， 然 后 各 地 区 独立 地 分 析 各 自 的 数据 。 在 个 体 层 上 进行 各 自 的 启发 式 分 析 处 理 。 

轻 度 综合 数据 是 只 经 过 很 小 程度 综合 的 细节 数据 。 例 如 ， 按 小 时 汇总 通话 信息 。 或 者 ， 
按 天 汇总 银行 支票 信息 。 图 2-16 示 出 了 这 种 轻 度 综合 。 

当 数 据 从 操作 型 环境 (存储 30 天 的 数据 ) 载 和 时， 就 被 按 顾客 综合 成 能 用 于 DSS 分 析 的 
多 个 字段 。J Jones 的 记录 显示 她 每 月 通话 次 数 、 每 次 通话 的 平均 长 度 、 长 途 电话 的 次 数 、 接 
线 员 帮 助 呼叫 的 次 数 ， 等 等 。 

轻 度 综合 数据 库 中 的 数据 量 要 比 细节 数据 库 中 的 数据 量 小 得 多 。 当 然 ， 在 轻 度 综合 级 数 
据 库 中 ， 对 能 访问 的 细节 级 别 存在 一 定 的 限制 。 

数据 仓库 中 数据 的 第 二 层 (最 低 粒度 级 ) 存放 在 数据 的 真实 档案 层 上 ， 如 图 2-17 所 示 。 

在 数据 的 真实 档案 层 上 ， 存 储 了 所 有 来 自 于 操作 型 环境 的 细节 。 在 这 一 层 上 确实 有 大 量 
的 数据 。 由 于 数据 量 太 大 ， 因 此 ， 有 必要 将 数据 存放 在 如 磁带 或 其 他 海量 存储 介质 上 。 

通过 在 数据 仓库 创建 两 种 粒度 级 ，DSS 设 计 者 可 一 举 两 得 。 大 部 分 DSS 处 理 是 针对 被 压缩 
的 、 存 取 效 率 高 的 轻 度 综合 级 数据 进行 的 。 如 果 需 要 分 析 更 大 的 细节 级 (5% 的 时 间或 更 少 )， 
可 以 到 数据 的 真实 档案 层 。 在 真实 档案 层 上 ， 访 问 数 据 将 是 昂贵 的 、 麻 烦 的 和 复杂 的 事情 ， 
但 如 果 必 须 进 入 这 一 细节 级 也 只 得 如 此 。 

当 一 种 真实 档案 层 数据 搜索 模式 随 着 时 间 逐 渐 发 展 增多 时 ， 设 计 者 可 以 在 轻 度 综 合 级 建 
立 一 些 新 的 数据 域 ， 这 样 大 部 分 的 处 理 就 可 以 在 轻 度 综合 级 进行 了 。 





数据 仓库 环境 


轻 度 综合 数据 


30 天 的 细节 


JJones 

4 月 12 日 下 午 6:01~6:12 
415-566-9982 接线 员 帮 助 
4 月 12 日 下 午 6:15~6:16 
415-334-8847 长 途 

4 月 12 日 下 午 6:23~6:38 
408-223-7745 

4 月 13 日 上 午 9:12~9:23 
408-223-7745 

4 月 13 日 上 午 10:15~10:21 
408-223-7745 接 线 员 帮 助 
4 月 15 日 上 午 11:01~11:21 
415-964-4738 

4 月 15 日 上 午 11:39~ 中 午 12:01 
703-570-5770 未 接 通 

4 月 15 日 下 午 12:10~12:40 
703-841-5770 号 码 错 误 
4 月 16 日 下 午 12:34~12:56 
415-964-3130 
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轻 度 综合 


四 月 份 

J Jones 

通话 次 数 一 一 45 次 

通话 的 平均 长 度 一 一 14 分 钟 


长 途 电话 数 一 一 18 个 
接线 员 帮 助 呼叫 数 一 一 2 个 
未 接 通 电话 数 一 一 1 个 





存储 一 个 记录 所 需 字 节 数 一 “225 


每 月 一 个 顾客 平均 存储 200 个 记录 需要 45 000 字 节 
图 2-16 采用 数据 的 轻 度 综合 ， 可 以 通过 压缩 表示 大 量 数据 





轻 度 综合 


a i 

4 月 12 日 6:01~6:12 

4 9982 接 线 员 帮 助 
日 下 午 6:15~6:16 

1 全 全 区 这 

4 月 12 日 下 午 6:23~6:38 

408-223-7745 

4 月 13 日 9 12~9:23 

408-223-7 

4 月 13 日 了 0 15~10:21 

408-2 


4 月 1S 1. 01~11:21 
415-964-4738 接 线 员 帮 助 
4 月 15 日 上 午 11: 39~ 中 午 


70 50 -5770 未 接 通 
日 下 午 1210~12:46 
09 3d. 5770 号 码 错 误 
4 月 16 日 下 午 12:34~12:56 
415-964-3130 










下 夫 攻 度 一 14 分 名 
话 次 数 一 一 18 个 
助 玫 岂 次 数 一 -2 个 








95% 甚 至 更 多 的 DSS 
处 理 在 此 进行 


5% 甚 至 更 少 的 DSS 
处 理 在 此 进行 


。 耗 费时 间 
。 复 杂 
。 费 用 高 


真实 档案 


图 2-17 双重 粒度 级 可 有 效 地 处 理 绝 大 多 数 的 请 求 ， 并 回答 任何 能 够 回答 的 问题 
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鉴于 费用 、 效 率 、 访 问 的 便利 和 能 够 回答 任何 可 以 回答 的 查询 的 能 力 ， 数 据 双 重 粒 度 级 
是 大 多 数 机 构建 造 数据 仓库 细节 级 的 最 好 的 体系 结构 化 选择 。 只 有 当 一 个 机 构 的 数据 仓库 环 
境 中 数据 相对 较 少 时 ， 才 能 尝试 采用 数据 粒度 的 单一 级 别 。 


2.5 探查 与 数据 挖掘 


数据 仓库 中 粒度 化 的 数据 不 但 可 以 支持 数据 集 市 还 可 以 支持 探查 与 数据 挖掘 过 程 。 探 查 
与 数据 挖掘 需要 大 量 历史 细节 数据 ， 从 中 找 出 以 前 未 知 的 新 颖 的 商业 活动 模式 。 

数据 仓库 包含 了 对 探查 与 数据 挖掘 工具 非常 有 用 的 数据 源 。 数 据 仓 库 中 经 过 清理 的 、 集 
成 的 和 有 组 织 的 历史 数据 正 是 探查 与 数据 挖掘 者 开展 探查 与 数据 挖掘 活 动 所 需要 的 基础 。 值 
得 注意 的 是 尽管 数据 仓库 为 探查 与 数据 挖掘 者 提供 了 一 个 非常 好 的 数据 源 ， 但 它 并 不 是 仅 有 
的 一 个 。 在 探查 与 挖掘 过 程 中 可 以 将 外 部 数据 和 其 他 数据 与 数据 仓库 中 的 数据 任意 混合 使 用 。 
读者 要 了 解 关 于 这 个 问题 的 更 多 信息 请 参考 《Exploration Warehousing: Turning Business 
Information into Business Opportunity》( Wiley, 2000 ) 。 


2.6 活 样本 数据 库 


有 时， 可 能 需要 建立 一 种 不 同 的 数据 仓库 。 有 些 时 候 ， 对 于 正常 的 存 取 和 分 析 来 说 ， 仓 
库 中 的 数据 实在 是 太 多 了 。 如 果 出 现 这 种 情况 ， 我 们 必须 使 用 一 些 特殊 的 设计 方法 。 

活 样本 数据 库 是 数据 仓库 的 一 种 非常 有 趣 的 混合 形式 ， 当 数据 仓库 中 的 数据 量 增 长 到 非 
常 大 时 ， 这 种 形式 就 变 得 非常 有 用 了 。 活 样本 数据 库 是 从 数据 仓库 中 取得 的 真实 档案 数据 或 
轻 度 综合 数据 的 一 个 子 集 。 术 语 “ 样 本 ”是 指 它 是 一 个 大 的 数据 库 的 一 个 子 集 (样本 ),“ 活 ” 
是 指 这 个 数据 库 需 要 进行 周期 刷新 。 图 2-18 所 示 为 一 个 活 样 本 数据 库 。 


数据 仓库 


“所 有 的 保险 客户 中 ， 有 多 少 是 已 婚 且 且 
有 大 学 学 历 的 35 岁 以 上 的 男性 ? ” 


活 样本 数据 








“仓库 中 的 一 部 分 数据 
。 用 于 查询 的 非常 有 效 简洁 的 形式 
* 不 能 用 于 一 般 目 的 的 分 析 一 一 只 能 用 于 统计 分 析 


图 2-18 活 样本 数据 库 一 一 另 一 种 改变 数据 粒度 的 方法 


在 某 些 情 况 下 (如 人 口 统计 分 析 或 概要 生成 )， 活 样本 数据 库 是 非常 有 用 的 ， 并 可 以 节约 
大 量 资 源 。 但 是 ， 使 用 活 样本 数据 库 有 一 些 严 格 的 限制 。 除 非 设计 者 清楚 地 知道 这 些 限 制 ， 
否则 就 不 应 该 创建 这 样 的 一 个 数据 库 以 作为 数据 仓库 的 一 部 分 。 

活 样 本 数据 库 不 是 通用 的 数据 库 。 假 如 你 想 知道 J. Jones 是 不 是 顾客 ， 你 不 应 该 在 活 样本 
数据 库 中 查找 这 条 信息 。J. Jones 是 一 个 顾客 ， 但 不 在 样本 数据 库 的 记录 中 是 完全 可 能 的 。 活 
样本 数据 库 适用 于 作 统 计 分 析 和 观察 发 展 趋势 。 当 数据 必须 以 整体 观察 时 ， 活 样本 数据 库 能 


数据 命 亩 球 旭 35 














提供 非常 理想 的 结果 ,但 决 不 适用 于 处 理 单个 的 数据 记录 。 

建立 活 样 本 数据 库 的 一 个 重要 问题 是 如 何 装 载 数 据 ， 这 决定 了 活 样 本 数据 库 中 的 数据 量 
以 及 其 中 的 数据 的 随机 程度 。 现 在 看 一 下 活 样本 数据 库 的 数据 通常 是 如 何 载 和 的。 它 是 用 一 
个 抽取 /选择 程序 搜索 一 个 大 规模 的 数据 库 ， 选 取 1100 或 111 000 的 记录 ， 然 后 将 这 些 记 录 送 
到 活 样本 数据 库 。 于 是 ， 最 终 的 活 样本 数据 库 的 大 小 将 是 原先 数据 库 的 1/100 或 1 000。 在 这 
个 活 样本 数据 库 上 进行 的 查询 只 需 耗费 直接 在 保存 了 全 部 数据 的 数据 仓库 上 进行 的 查询 所 耗 
费 资源 的 1/100 或 1/1 000。 

对 活 样本 中 记录 的 选取 一 般 是 随机 的 ， 必 要 时 可 采用 一 个 判断 样本 〈 即 记录 必须 达到 一 
定 标准 才能 被 选中 )。 判 断 样本 所 带 来 的 问题 会 使 活 样本 数据 具有 某 种 偏差 ， 随 机 抽取 数据 带 
来 的 问题 可 能 不 具有 统计 意义 。 不 管 如 何 选择 ， 总 是 可 以 将 数据 仓库 的 一 个 子 集 选 择 作 为 活 
样本 数据 库 。 因 为 在 活 样本 数据 库 上 进行 的 处 理 并 不 要 求 数据 仓库 中 的 每 一 条 记录 都 包含 在 
其 中 ， 所 以 在 活 样本 数据 库 中 可 能 找 不 到 某 一 给 定 的 记录 是 无 关 紧 要 的 。 

活 样 本 数据 库 的 最 大 好 处 是 存 取 效率 非常 高 。 因 为 活 样 本 数据 库 的 大 小 要 比 从 中 导出 它 
的 大 数据 库 小 得 多 ， 所 以 对 它 进行 访问 和 分 析 也 相对 更 高 效 。 

换 旬 话说， 一 个 分 析 员 可 能 花 24 小 时 来 浏览 与 分 析 一 个 大 数据 库 ， 而 浏览 与 分 析 一 个 活 
样本 数据 库 则 可 能 只 需 10 分 钟 。 在 进行 启发 式 分 析 时 ， 周 转 时间 对 可 以 进行 的 分 析 而 言 是 至 
其 重要 的 。 在 启发 式 分 析 中 ， 分 析 员 运行 程序 、 分 析 结 果 、 修 改 程序 、 再 运行 程序 。 如 果 执 
行程 序 就 花 去 24 小 时 ， 分 析 和 修改 程序 的 过 程 就 会 大 大 削弱 (更 不 用 说 修改 所 需 的 资源 )。 

如 果 使 用 10 分 钟 内 就 足以 浏览 完 的 活 样本 数据 库 ， 分 析 员 能 很 快 地 完成 这 个 反复 过 程 。 
总 之 ，DSS 分 析 员 的 生产 效率 是 由 进行 整个 分 析 过 程 的 速度 来 决定 的 。 

一 种 观点 认为 进行 统计 分 析 会 导致 错误 的 结论 。 例 如 ， 分 析 员 分 析 一 个 有 25 000 000 条 记 
录 的 大 文件 ， 确 定 路 上 56.7% 的 汽车 司机 是 男性 。 而 使 用 活 样本 数据 库 ， 分析 员 只 用 25 000 个 
记录 人 确定 路 上 55.9% 的 汽车 司机 是 男性 。 前 一 种 分 析 比 后 一 种 分 析 需 要 的 资源 大 得 多 ， 而 计算 
得 出 的 结论 差异 却 非 常 非常 小 。 毫 无 疑问 ， 用 大 规模 数据 库 进行 分 析 会 比较 精确 ， 但 这 种 精 
确 的 代价 实在 太 高 了 ， 尤 其 在 选 代 式 进行 的 启发 式 处 理 时 ， 这 种 代价 更 是 难以 承受 。 

如 果 需 要 非常 高 的 精确 度 ， 行 之 有 效 的 方法 是 将 要 求 形式 化 ， 并 在 活 样本 数据 库 上 进行 
反复 处 理 。 这 样 做 ，DSS 分 析 员 可 较 快 地 将 要 求 形式 化 。 当 进行 过 几 次 反复 分 析 从 而 理解 了 
需求 以 后 ， 在 大 规模 数据 库 上 仅 运 行 最 后 一 次 。 

采用 活 样本 数据 是 在 数据 仓库 中 改变 粒度 级 ， 以 便于 进行 DSS 处 理 的 另 一 种 方法 。 


2.7 分 区 设计 方法 


数据 仓库 中 数据 的 第 二 个 主要 设计 问题 (在 粒度 问题 之 后 ) 是 分 区 (参见 图 2-11b)。 数 
据 分 区 是 指 把 数据 分 散 到 可 独立 处 理 的 分 离 物理 单元 中 去 。 在 数据 仓库 中 ， 围 绕 分 区 问题 的 
焦点 不 是 该 不 该 分 区 而 是 如 何 分 区 的 问题 。 

人 们 常 说 ， 如 果 粒 度 和 分 区 都 做 得 很 好 的 话 ， 则 数据 仓库 设计 和 实现 的 几乎 所 有 其 他 问 
题 都 容易 解决 。 但 是 ， 假 如 粒度 处 理 不 当 ， 并 且 分 区 也 没有 认真 地 设计 与 实现 ， 这 将 使 其 他 
方面 的 设计 难以 真正 实现 。 

恰当 地 进行 分 区 可 以 给 数据 仓库 在 多 个 方面 带 来 好 处 : 

“ 数据 装载 。 

* 数据 访问 。 
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。 数 据 存档 。 

* 数据 删除 。 

。 数 据 监 控 。 

。 数 据 存储 。 

恰当 地 进行 数据 分 区 使 得 数据 可 以 增长 ， 并 且 可 以 进行 管理 。 反 之 ， 如 果 数 据 分 区 不 适 
当 ， 则 会 为 数据 增长 和 管理 造成 许多 困难 。 

当然 ， 还 有 数据 仓库 其 他 的 重要 设计 问题 ， 将 在 后 面 的 章 进行 讨论 。 


数据 分 区 


在 数据 仓库 环境 中 的 问题 不 是 要 不 要 对 当前 细节 数据 进行 分 区 ， 而 是 如 何 对 当前 细节 数 
据 进 行 分 区 。 数 据 分 区 如 图 2-19 所 示 。 









数据 分 区 
口 日 1 
口 日 口 a (车 需要 ) 

Bs 





1989 


二 1988 

是- 局 二 几 

一 一 本 独立 管理 的 数据 单元 可 
加 


以 有 不 同 的 定义 


4 
中 
六 
4 
‘ 
bb 
4 
中 


处 理 设备 A 《一 一 一 一 4 


le 


处 理 设备 B 
图 2-19 独立 管理 的 数据 分 区 可 以 送 到 不 同 的 处 理 设备 ， 而 无 需 顾 及 系统 中 其 他 的 问题 


对 当前 细节 数据 进行 分 区 的 目的 是 把 数据 划分 成 小 的 可 管理 的 物理 单元 。 数 据 分 区 为 什 
么 如 此 重要 呢 ? 这 是 因为 运行 维护 人 员 和 设计 者 在 管理 小 的 物理 单元 时 将 比 管理 大 的 物理 音 
元 时 享有 更 大 的 灵活 性 。 

当 数 据 存放 在 大 的 物理 单元 中 时 ， 以 下 这 些 任务 将 无 法 轻松 地 进行 : 

。 重 构 。 

“索引 。 

。 顺 序 扫描 ( 若 需 要 )。 
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。 重 组 。 

。 恢 复 。 

。 监 控 。 

简单 地 说 ， 数 据 仓 库 的 本 质 之 一 就 是 灵活 地 访问 数据 。 如 果 是 大 块 的 数据 ， 就 达 不 到 这 
一 要 求 。 因 而 ， 对 所 有 当前 细节 的 数据 仓库 数据 都 要 进行 分 区 。 

当 结构 相似 的 数据 被 分 到 多 个 数据 的 物理 单元 时 ， 数 据 便 被 分 区 了 。 此 外 ， 任 何 给 定 的 
数据 单元 属于 且 仅 属于 一 个 分 区 。 

有 多 种 数据 分 区 的 标准 。 例 如 ， 按 : 

* 时间。 

。 业 务 范围 。 

。 地 理 位 置 。 

。 组 织 单位 。 

。 所 有 上 述 标准 。 

数据 分 区 的 标准 完全 由 开发 人 员 来 决定 。 然 而 ， 在 数据 仓库 环境 中 ， 日 期 几乎 总 是 分 区 
标准 中 的 一 个 必然 组 成 部 分 。 

将 人 寿 保 险 公 司 如 何 选 择 数据 分 区 标准 作为 一 个 例子 ， 来 看 看 下 列 数据 的 物理 单元 

。2000 年 健康 索赔 。 

。2001 年 健康 索赔 。 

。2002 年 健康 索赔 。 

，1999 年 人 寿 保险 索赔 。 

。2000 年 人 寿 保险 索赔 。 

。2001 年 人 寿 保险 索赔 。 

。2002 年 人 寿 保险 索赔 。 

。2000 年 意外 伤亡 索赔 。 

。2001 年 意外 伤亡 索赔 。 

。2002 年 意外 伤亡 索赔 。 

这 个 保险 公司 使 用 了 日 期 即 年 ， 和 索赔 类 型 作为 标准 来 对 数据 分 区 。 

数据 分 区 可 以 采用 多 种 方式 。 数 据 仓库 开发 人 员 面 临 的 主要 问题 之 一 是 在 系统 层 上 还 是 在 
应 用 层 上 对 数据 进行 分 区 。 在 系统 层 上 进行 分 区 在 一 定 程度 上 是 某 些 DBMS 和 操作 系统 的 一 种 
功能 。 在 应 用 层 上 进行 分 区 由 设计 的 应 用 程序 代码 完成 ， 而 且 只 由 开发 者 和 程序 员 严 格 控制 。 
因而 ， 当 在 应 用 层 上 进行 数据 分 区 时 ，DBMS 和 系统 不 知道 一 个 分 区 与 另 一 个 分 区 之 间 的 关系 。 

通常 ， 在 应 用 层 上 对 数据 仓库 数据 分 区 是 很 有 意义 的 。 这 是 有 一 些 重要 原因 的 ， 最 重要 
的 是 ， 在 应 用 层 上 每 年 的 数据 可 以 有 不 同 的 定义 。2000 年 和 2001 年 的 数据 定义 ， 可 以 相同 也 
可 以 不 相同 。 仓 库 中 数据 的 本 质 是 长 期 积累 的 数据 。 

当 数 据 在 系统 层 上 分 区 时 ，DBMS 不 可 避免 地 希望 只 有 一 种 数据 定义 。 假 定数 据 仓库 中 
保存 的 数据 时 间 较 长 (如 达到 10 年 )， 而 且 数 据 定义 经 常 变化 ， 让 本 应 该 只 有 一 种 数据 定义 的 
DBMS 或 操作 系统 去 管理 这 个 系统 将 是 毫 无 意义 的 。 

允许 在 应 用 层 上 而 不 是 DBMS 层 上 管理 数据 分 区 ， 可 以 将 数据 从 一 个 处 理 设 备 转移 到 另 
一 个 处 理 设备 而 不 会 带 来 问题 。 在 数据 仓库 环境 中 ， 当 工作 负载 和 数据 量 成 为 真正 的 负担 时 ， 
这 种 特点 就 是 一 种 真正 的 优点 。 
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对 数据 分 区 最 严峻 的 考验 是 提出 这 样 的 问题 : “能 否 在 分 区 中 加 入 索引 而 不 会 明显 地 妨碍 
其 他 操作 ? ”如 果 一 个 索引 能 随意 加 上 去 的 话 ， 那 么 这 种 分 区 就 足够 理想 了 。 如 果 索 引 不 能 
很 容易 地 加 入 ， 那 么 这 个 分 区 还 要 分 得 更 精细 一 点 。 


2.8 数据 仓库 中 的 数据 组 织 

迄今 为 止 ， 我 们 还 没有 详细 研究 数据 仓库 中 所 建立 的 数据 结构 是 怎样 的 。 数 据 仓库 中 有 
多 种 数据 组 织 形式 ， 我 们 将 讨论 几 类 比较 常见 的 结构 。 

数据 仓库 中 最 简单 最 常用 的 数据 组 织 形 式 也 许 是 简单 堆积 结构 ， 如 图 2-20 所 示 。 

图 2-20 表 示 从 操作 型 环境 中 传输 的 日 常事 务 记录 ， 再 综合 成 数据 仓库 记录 。 这 个 综合 可 
根据 顾客 、 账 目 或 者 根据 任何 数据 仓库 的 主题 域 来 进行 。 图 2-20 中 的 事务 处 理 是 以 天 进行 综 
合 的 。 换 句 话说， 对 一 个 顾客 的 一 个 账号 每 天 的 所 有 活动 进行 合计 ， 并 在 一 天 一 天 的 基础 上 


进入 数据 仓库 。 
简单 堆积 数据 





操作 型 数据 | 
每 日 综合 
旋 吕 吕 潮 加 年 
1 月 1 日 1 月 2 日 1 月 3 日 … 
[CL] [CC 已] 


2 月 1 日 2 月 2 日 2 月 3 日 … 
J 
3 月 1 日 3 月 2 日 3 月 3 日 … 


图 2-20 数据 仓库 中 最 简单 的 数据 组 织 形 式 是 以 逐个 记录 为 基础 堆积 的 数据 ， 称 为 简单 堆积 数据 
图 2-21 表 示 简 单 逐日 堆积 数据 的 一 个 变种 ， 称 为 轮转 综合 数据 存储 。 


和 


操作 型 数据 | 
时 时 每 日 综合 





0 DC DO [站 
第 1 天 第 2 天 第 3 天 … 第 7 天 
CD DO 总 [| 
第 1 周 第 2 周 第 3 周 … 第 5 周 


LI [CJ 口 [| 
第 1 月 第 2 月 第 3 月 … 第 12 月 
CC 口 总 CJ 
第 ! 年 第 2 年 ”第 3 年 … 第 n 年 


图 2-21 轮转 综合 文件 是 简单 堆积 文件 的 变种 
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数据 用 与 前 面相 同 的 处 理 方法 从 操作 型 环境 进 和 人 到 数据 仓库 环境 中 。 然 而 ， 在 轮转 综合 
数据 中 ， 数 据 载 人 到 一 种 完全 不 同 的 结构 中 。 第 一 周 的 七 天 中 的 活动 逐一 综合 到 七 个 相应 的 
日 槽 中 ， 到 第 八 天 ， 将 七 个 日 槽 加 到 一 起 ， 并 放 和 第 一 个 周 槽 中 。 然 后 ， 第 八 天 的 日 总 计 加 
到 第 一 个 日 槽 中 。 

月 底 将 各 个 周 槽 加 到 一 起 ， 并 攻 和 第 一 个 月 槽 中 ， 然 后 各 个 周 槽 清 零 。 到 了 年 底 ， 将 每 
个 月 槽 加 到 一 起 ， 放 入 第 一 个 年 槽 中 ， 然 后 每 个 月 模 清 零 。 

轮转 综合 数据 结构 与 数据 的 简单 堆积 结构 相 比 ， 仅 处 理 非 常 少 的 数据 单元 。 它 们 之 间 的 
优 缺 点 比较 如 图 2-22 所 示 。 


轮转 综合 数据 
CI CI CI 0 
第 1 天 第 2 天 第 3 天 … 第 ?天 
Cj [人 L 
第 1 周 第 2 周 第 3 周 … 第 5 周 
CI CD 0 [| 
第 1 月 第 2 月 第 3 月 … 第 12 月 
CO CO 0 CC 
第 1 年 第 ?年 ”第 3 年 … 第 "年 


“非常 紧凑 
“一 些 细节 丢失 
“ 提取 越久 的 数据 ， 越 不 详细 


简单 堆积 数据 
1 a Ts. 。 需 要 许多 存储 空间 
* 无 细节 丢失 
站 .许多 处 理 与 数据 有 关 
2 月 1 日 2 月 2 日 2 月 3 日 … 
CI CC] CO 


3 月 1 日 3 月 2 月 3 月 3 日 … 


图 2-22 轮转 综合 数据 与 简单 堆积 数据 的 比较 


数据 仓库 数据 的 另外 一 种 组 织 形式 是 简单 直接 文件 ， 如 图 2-23 所 示 。 

图 2-23 表 明 ， 数 据 仅 仅 是 从 操作 型 环境 被 拖 入 数据 仓库 环境 中 ， 并 没有 任何 累积 。 另 外 ， 
简单 直接 文件 不 是 在 每 天 的 基础 上 组 织 的 ， 而 是 以 较 长 时 间 生 成 的 ， 比 如 一 个 星期 或 一 个 月 。 
因此 ， 简 单 直接 文件 是 操作 型 数据 间隔 一 定时 间 的 一 个 快照 。 


1 月 份 顾客 













J Adams Main 大 街 123 号 
P Anderson High 大 街 456 号 
K Appleby A 大 街 10 号 

L Azimoff” 北 农场 路 64 号 


操作 型 数据 


图 2-23 简单 直接 文件 一 一 另外 一 种 数据 仓库 结构 


依据 两 个 或 更 多 的 简单 直接 文件 能 生成 一 种 连续 文件 。 图 2-24 把 1 月 份 和 2 月 份 的 两 个 数 
据 快 照 合 并 ， 创 建 数 据 的 一 个 连续 文件 。 连 续 文件 中 的 数据 表示 从 第 一 个 月 到 最 后 一 个 月 的 
连续 数据 . 
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1 月 份 顾客 2 月 份 顾客 






















J Adams Main 大 街 123 号 
W Abraham 9 号 公路 12 号 


J Adams Main 大 街 123 号 
P Anderson High 大 街 456 号 . 
K Appleby A 大 街 10 号 P Anderson Tincup 郡 1455 号 
L Azimoff 北 农场 路 64 号 K Appleby ”A 大 街 10 号 

NE 呈 坟 训 阳 L Azimoff ” 北 农场 路 64 号 


















J. Adams 1 月 ~ 今 ” Main 大 街 123 号 
W Abraham 2 月 ~ 今 9 号 公路 12 号 

P Anderson 1 月 ~1 月 High 大 街 456 号 
P Anderson 2 月 - 今 Tincup 郡 1455 号 
K Appleby 1 月 ~ 今 ” ”A 大 街 10 号 

L Azimoff 1 月 ~- 今 ” 北 农场 路 64 号 





图 2-24 从 直接 文件 创建 一 个 连续 文件 


当然 ， 连 续 文件 也 可 以 通过 把 一 个 快照 追加 到 一 个 以 前 生成 的 连续 文件 上 来 创建 ， 如 图 
2-25 所 示 。 


连续 文件 3 月 份 顾客 





























Wy J Adams Main 大 街 123 号 
A 场 2 仿 Di 号 W Abraham 9 号 公路 12 号 
P Anderson 1 月 ~1 月 High 大 街 456 号 K Appleby  A 大 街 10 号 ， 
P Anderson 2 月 ~ 今 Tincup 和 郡 1455 号 L Azimoff 北 农场 路 64 号 
站 站 
L Azimoff 1 月 ~ 今 ” 北 农场 路 64 号 











J Adams 
W Abraham 


1 六 Main 大 街 123 号 
2 
P Anderson 1 月 
2 月 
1 月 
1 月 


9 号 公路 12 号 
High 大 街 456 号 


P Anderson 今 ”Tincup 郡 1455 号 
K Appleby 仿 A 10 号 
L Azimoff 今 “ 北 农场 路 64 号 


图 2-25 由 简单 直接 文件 创建 连续 文件 ， 或 把 简单 直接 文件 追加 到 连续 文件 


数据 仓库 中 还 有 许多 其 他 的 数据 组 织 形式 ， 最 常用 的 是 : 

。 简单 堆积 。 

“轮转 综合 。 

。 简单 直接 。 

“连续 。 

在 关键 字 层 ， 数 据 仓库 的 关键 字 总 是 复合 关键 字 ， 这 有 两 种 强制 性 的 理由 : 
。 日 期 一 一 和 年、 年/ 月、 年/ 月/ 日， 等 等 ， 几 乎 总 是 关键 字 的 一 部 分 。 
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* 因为 数据 仓库 中 的 数据 是 分 区 的 ， 分 区 的 不 同 部 分 表现 为 关键 字 的 一 部 分 。 
2.9 审计 与 数据 仓库 


伴随 数据 仓库 出 现 的 一 个 有 趣 的 问题 是 : 是 否 能 够 或 应 该 在 数据 仓库 中 进行 审计 。 答 案 
是 能 对 数据 仓库 进行 审计 。 并 且 已 经 有 几 个 在 数据 仓库 中 进行 详细 审计 的 例子 。 然 而 有 更 多 
的 理由 表明 ， 即 使 能 对 数据 仓库 进行 审计 ， 也 不 应 该 从 中 进行 。 不 这 样 做 的 主要 原因 如 下 : 

* 原先 在 数据 仓库 中 没有 的 数据 会 突然 出 现 。 

“ 当 需 要 审计 能 力 时 ， 数 据 进 入 数据 仓库 的 时 间 标 定 过 程 会 发 生 急剧 变化 。 

* 当 需 要 审计 能 力 时 ， 数 据 仓 库 的 备份 和 恢复 限制 会 发 生 急剧 变化 。 

“在 仓库 中 审计 数据 会 使 仓库 中 数据 的 粒度 处 于 最 低 的 级 别 上 。 

总 之 ， 在 数据 仓库 环境 中 进行 审计 是 可 能 的 ， 但 是 审计 带 来 的 复杂 性 使 得 审计 在 其 他 地 
方 进行 更 有 意义 。 

2.10 数据 的 同 构 / 异 构 


数据 仓库 中 数据 的 所 有 记录 类 型 是 相同 的 ， 在 这 一 意义 下 ， 乍 看 起 来 数据 仓库 中 的 数据 
也 是 同 构 的 。 而 事实 上 ， 数 据 仓库 中 的 数据 是 异 构 的 : 
数据 仓库 中 的 数据 被 分 到 称 为 主题 域 的 主要 子 划分 申 ， 
图 2-26 表 示 一 个 有 产品 、 顾 客 、 销 售 商 及 交易 这 几 个 主 
题 域 的 数据 仓库 。 

数据 仓库 中 数据 的 第 一 次 划分 是 按照 公司 主要 主题 
进行 的 。 但 是 ， 对 每 一 个 主题 域 还 有 更 细 的 划分 。 主 题 
域 中 的 数据 又 划分 到 多 个 表 中 。 图 2-27 表 示 产品 这 一 主 
题 域 进一步 划分 到 表 中 的 情形 . 

如 图 2-27 所 示 五 个 表 构成 了 数据 仓库 中 的 产品 主题 
域 。 每 个 表 都 有 自身 的 数据 ， 但 这 一 主题 域 中 的 每 一 个 
表 又 共享 同一 主线 一 产品 ， 即 键 /外 键 数据 单元 。 

在 构成 主题 域 的 物理 表 中 还 有 更 细 的 划分 。 这 些 划 
分 是 按照 出 现 数据 值 的 差异 创建 的 。 例 如 ， 在 产品 发 货 并 固 全 放 不由 闻 分 的 数据 
表 中 ， 有 一 月 发 货 ， 二 月 发 货 ， 三 月 发 货 ， 等 等 


销售 商 











图 2-27 产品 主题 域 中 有 多 个 不 同类 型 的 表 ， 每 个 表 都 以 通用 产品 卫 作 为 关键 字 的 一 部 分 
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因此 数据 仓库 中 的 数据 按 下 列 标 准 划分 : 

* 主题 域 。 

。 表 。 

。 数 据 在 表 中 的 出 现 。 

数据 仓库 中 数据 的 这 种 组 织 方式 使 得 数据 能 够 基于 数据 仓库 数据 建立 的 体系 结构 各 个 部 
分 容易 地 访问 和 理解 。 结 果 如 图 2-28 所 示 ， 数 据 仓库 与 其 中 粒度 化 的 数据 成 为 许多 不 同 应 用 
的 基础 。 





图 2-28 数据 仓库 位 于 一 个 大 框架 的 中 心 


如 图 2-28 所 示 数 据 仓库 环境 中 数据 的 简单 优雅 组 织 方式 ， 我 们 可 以 针对 多 种 不 同 的 目的 
以 不 同 的 方式 访问 数据 。 


2.11 数据 仓库 中 的 数据 清理 


数据 并 非 永 久 地 注入 数据 仓库 ， 它 在 数据 仓库 中 也 有 自己 的 生命 周期 。 到 了 一 定时 候 ， 
数据 将 从 仓库 中 清除 。 数 据 清理 问题 是 数据 仓库 设计 人 员 无 法 回避 的 基本 设计 问题 之 一 。 

从 某 种 意义 上 讲 ， 数 据 根本 没有 从 数据 仓库 中 清除 ， 而 仅 是 上 升 到 更 高 的 综合 级 。 数 据 
清理 或 数据 细节 转化 主要 有 以 下 几 种 方式 : 

“数据 加 入 到 失去 原 有 细节 的 一 个 轮转 综合 文件 中 。 

。 数 据 从 高 性 能 的 介质 (如 DASD ) 转移 到 大 容量 介质 上 。 

。 数据 从 系统 中 被 真正 清除 。 

。 数 据 从 体系 结构 的 一 个 层次 转 到 另 一 个 层次 ， 比 如 从 操作 层 转 到 数据 仓库 层 。 

因而 ， 在 数据 仓库 环境 之 中 有 种 种 数据 清理 或 者 转化 的 方式 。 数 据 的 生命 周期 (包括 清 
除 和 最 终 档 案 转 移 ) 应 该 是 数据 仓库 设计 过 程 中 活跃 的 一 部 分 。 
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2.12 报表 与 体系 结构 化 环境 


如 果 说 一 旦 数据 仓库 建立 起 来 ， 所 有 的 报表 和 信息 处 理 都 将 在 此 实现 。 这 只 不 过 是 一 种 
诱惑 ， 情 况 确实 不 是 这 样 。 有 一 些 适 于 在 操作 型 系统 中 进行 的 报表 处 理 类 型 。 图 2-29 表 明 不 
同 风格 的 处 理应 置 于 什么 位 置 。 

图 2-29 表 明 ， 操 作 型 报表 是 为 基层 人 员 用 的 ， 基 本 在 行 式 项 目 上 。 数 据 仓 库 或 信息 型 处 
理 主要 关注 管理 ， 其 中 包含 一 些 汇 总 数据 或 经 过 计算 的 信息 。 在 数据 仓库 报表 中 ， 一 旦 基本 
数据 计算 完成 ， 报 表 内 容 很 少 使 用 行 式 项 目 和 细节 信息 。 


操作 型 
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操作 型 报表 数据 仓库 报表 

“ 主要 是 行 式 项 目 ， 即 使 有 “即使 有 行 式 项 目 也 很 少 甚至 设 有 
综合 ， 也 很 少 或 不 重要 用 ; 综合 或 其 他 计算 非常 重要 
“对 于 基层 人 员 是 重要 的 “对 于 管理 层 人 员 是 重要 的 


图 2-29 两 种 报表 的 区 别 


我 们 以 银行 为 例 来 说 明 操 作 型 报表 与 DSS 报表 的 不 同 。 每 天 回 家 之 前 ， 出 纳 员 都 要 结算 
所 在 窗口 的 现金 余额 。 这 意味 着 出 纳 员 以 一 天 开始 时 的 现金 量 ， 结 合 这 一 天 的 交易 ， 来 确定 
一 天 结束 时 现金 余额 应 该 是 多 少 。 为 了 完成 这 项 任务 ， 出 纳 员 需要 一 个 当天 所 有 交易 的 报表 。 
这 是 一 种 操作 型 报表 。 

现在 我 们 来 看 一 看 银行 副 行 长 在 决定 应 该 在 一 个 新 建 的 购物 中 心安 放 多 少 台 新 的 ATM 自 
动 柜员 机 时 的 情况 。 副 行 长 首先 要 了 解 大 量 信息 ， 一 些 是 从 银行 内 部 得 到 的 ， 还 有 一 些 则 是 
从 银行 外 部 得 到 的 。 副 行 长 正在 做 一 项 长 期 的 战略 决策 ， 因 此 ， 在 决策 时 要 使 用 典型 的 PSS 
信息 。 

操作 型 报表 与 DSS 报表 确实 存在 着 差异 。 操 作 型 报表 处 理应 当 总 是 在 操作 型 环境 的 范围 
内 完成 。 


2.13 各 种 环境 中 的 操作 型 窗口 


就 最 广泛 的 意义 来 说 ， 档 案 表示 的 是 比 现在 旱 的 东西 。 因 此 ，30 秒 之 前 购买 面包 的 信息 
是 档案 信息 。 惟 一 不 是 档案 的 信息 就 是 当前 的 信息 。 

数据 仓库 是 DSS 处 理 的 基础 ， 其 中 包含 的 都 是 档案 信息 ， 而 且 大 部 分 是 至 少 24 小 时 以 前 
的 。 但 是 档案 数据 在 体系 结构 化 环境 的 其 他 地 方 也 能 找到 ， 特 别 是 在 操作 型 环境 中 也 能 找到 。 

在 数据 仓库 中 ， 存 有 数量 很 大 的 、5~10 年 的 档案 数据 是 很 常见 的 。 由 于 档案 数据 时 间 范 
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围 很 长 的 缘故 ， 数 据 仓库 中 存 有 大 量 的 数据 。 在 操作 型 环境 中 的 档案 数据 的 时 间 范 围 称 为 数 
据 的 操作 型 窗口 ， 一 般 不 很 长 ， 只 能 从 一 个 星期 到 两 年 。 

但 是 操作 型 环境 中 的 档案 数据 的 时 间 范 围 不 是 在 操作 型 环境 中 的 档案 数据 和 数据 仓库 环 
境 中 的 档案 数据 间 的 惟一 区 别 。 不 同 于 数据 仓库 ， 哥 作 型 环境 的 档案 数据 的 数量 不 大 ， 并 且 
访问 频繁 。 

为 了 理解 在 操作 型 环境 中 新 鲜 的 、 量 不 大 的 、 被 频繁 访问 的 档案 数据 充当 的 角色 ， 考 虑 
一 家 银行 的 工作 方式 。 在 一 个 银行 环境 中 ， 顾 客 可 以 合理 地 期 望 能 找到 有 关 这 个 月 的 交易 处 
理 的 信息 。 如 ， 这 个 月 的 租金 支票 清 了 没有 ?工资 是 什么 时 候 存 进去 的 ?这 个 月 的 结余 是 多 
少 ? 银行 上 星期 是 否 通过 转账 交 了 电费 ? 

银行 的 操作 型 环境 包括 非常 细节 的 和 新 近 的 交易 记录 (仍然 是 档案 的 )。 但 是 ， 指 望 银 行 
能 告诉 顾客 “5 年 前 是 否 给 杂货 店 开 过 一 张 支票 ? ”或 “10 年 前 一 张 竞选 捐款 支票 是 否 部 现 
了 ? ”这 种 要 求 是 不 是 合理 呢 ? 这 些 处 理 很 难 在 银行 的 操作 型 系统 领域 进行 。 这 些 业务 记录 
已 经 很 上 昌 了 ， 所 以 访问 率 相当 低 。 

行业 之 间 的 操作 型 时 间 窗 口 是 各 不 相同 的 ， 黄 至 也 因 一 个 行业 内 的 数据 和 活动 类 型 而 不 同 。 

例如 ， 一 个 保险 公司 可 能 有 一 个 2~3 年 的 相当 长 的 操作 型 窗口 。 保 险 公司 内 部 的 事务 处 理 
率 是 很 低 的 ， 至 少 与 其 他 类 型 的 行业 相 比 是 这 样 。 顾 客 和 保险 公司 之 间 的 直接 交互 相对 较 少 。 
相反 ， 银 行业 务 的 操作 型 窗口 非常 短 ， 一 般 从 0 到 60 天 ， 银 行 与 顾客 之 间 有 许多 直接 交互 。 

一 家 公司 的 操作 型 窗 日 由 该 公司 属于 什么 类 型 的 行业 来 决定 。 如 果 是 个 大 公司 ， 它 可 能 拥 
有 不 止 一 个 操作 型 窗口 ， 这 是 由 所 处 理 业务 的 细 目 决定 的 。 例 如 ， 在 一 家 电话 公司 里 ， 客 户 
使 用 情况 数据 可 能 拥有 30 到 60 天 的 操作 型 窗口 ， 而 销售 商 / 供 货 商 活动 可 能 拥有 2 到 3 年 的 窗口 。 

下 面 是 针对 不 同行 业 中 档案 数据 的 操作 型 窗口 的 一 些 建议 : 

。 保 险 公司 : 2~3 年 

* 银行 信托 处 理 : 2~5 年 

。 顾客 使 用 电话 情况 : 30~60 天 

。 供 货 商 /销售 商 活动 : 2~3 年 

* 小 额 银 行业 务 顾客 账户 活动 : 30 天 

* 销售 商 活动 : 1 年 

。 贷款: 2~5 年 

。SKU 活 动 : 1~14 天 

。 销 售 商 活动 : 1 周 ~i 个 月 

。 航 班 座位 活动 : 30~90 天 

。 销 售 商 / 供 货 商 活动 : 1~2 年 

。 公 共事 业 顾 客 使 用 情况 ，60~90 天 

* 供 应 商 活 动 : 1~5 年 

操作 型 窗口 的 长 度 对 DSS 分 析 员 而 言 非常 重要 ， 因 为 它 决 定 了 分 析 员 在 哪里 进行 不 同 的 
分 析 和 能 做 什么 类 型 的 分 析 。 例 如 ，DSS 分 析 员 能 对 在 操作 型 窗口 里 找到 的 数据 进行 单项 分 
析 ， 而 不 能 做 大 的 长 期 趋势 分 析 。 操 作 型 窗口 的 数据 适 于 高 效 单个 访问 ， 只 有 当 数 据 移 出 操 
作 型 窗口 后 ， 才 适 于 进行 大 量 数据 的 存储 和 访问 。 

另 一 方面 ，DSS 分 析 员 能 对 在 操作 型 窗口 外 找到 的 数据 进行 全 盘 趋 势 分 析 。 在 操作 型 窗 
口 之 外 的 数据 能 被 整体 地 访问 和 处 理 ， 而 访问 任何 一 个 单个 数据 单元 都 是 不 理想 的 。 
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2.14 数据 仓库 中 的 错误 数据 


体系 结构 设计 人 员 必 须 清 楚 如 何 对 数据 仓库 中 的 错误 数据 进行 处 理 。 首 先 假设 到 达 数 据 
仓库 的 错误 数据 是 某 种 异常 。 如 果 错 误 数据 是 批量 地 进入 数据 仓库 的 ， 那 么 体系 结构 设计 人 
员 就 有 必要 找 出 惹祸 的 ETL 工 具 并 做 出 调整 。 有 时 ， 即 使 是 使 用 了 最 好 的 ETL 处 理工 具 ， 仍 然 
会 有 些 错 误 数 据 进 入 数据 仓库 环境 ， 那 么 体系 结构 设计 人 员 应 该 如 何 处 理 这 些 错误 数据 呢 ? 

至 少 有 三 种 选择 。 每 一 种 方法 都 是 优势 与 劣势 共存 ， 没 有 一 种 是 绝对 正确 或 错误 。 但 在 
某 些 条 件 下 一 种 选择 会 比 另 一 种 选择 好 。 

例如 ， 假 设 7 月 1 日 在 操作 型 系统 中 ， 账 户 ABC 加 入 了 一 条 5 000 美 元 的 账目 。7 月 2 日 在 数 
据 仓 库 中 为 账户 ABC 产生 了 这 $ 000 美 元 账目 的 一 个 快照 。 接 着 ， 在 8 月 15 日 发 现 了 错误 。 这 
一 账目 不 是 5 000 美 元 ， 而 应 是 750 美 元 。 如 何 纠 正 数 据 仓库 中 的 数据 呢 ? 

* 方法 1: 进入 7 月 2 日 的 数据 仓库 并 找到 错误 的 条 目 ， 然 后 使 用 更 新 功能 ， 将 5 000 美 元 替 

换 为 750 美 元 。 这 样 做 无 疑 是 一 种 干净 彻底 的 解决 方案 ， 但 它 却 引 发 了 新 的 问题 : 

* 数据 集成 被 破坏 。 所 有 在 7 月 2 日 与 8 月 16 日 之 间 生 成 的 报表 都 将 失去 一 致 性 。 

更 新 必须 在 数据 仓库 环境 中 进行 

。 许 多 时 候 不 是 要 修正 一 个 条 目 ， 而 是 有 很 多 很 多 的 条 目 要 修正 。 

。 方 法 2: 加 入 修正 条 目 。8 月 16 日 加 入 两 个 条 上 且 ， 一 条 是 -5 000 美 元 ， 另 一 条 是 750 美 

元 。 这 是 数据 仓库 中 7 月 2 日 与 8 月 16 日 之 间 数 据 仓库 中 最 新 数据 的 最 好 反映 。 但 这 样 做 

也 有 一 些 缺 点 : 

。 可 能 要 修正 很 多 条 目 ， 而 非 一 个 。 要 进行 一 项 简单 的 调整 也 非常 困难 。 

。 有 时候 由 于 修正 公式 非常 复杂 ， 以 致 于 根本 不 可 能 进行 调整 。 

。 方 法 3: 重新 设置 8 月 16 日 账户 为 正确 数值 。8 月 16 日 的 账目 反映 了 当时 账户 的 余额 ， 而 

不 郑 虑 以 前 的 活动 。8 月 16 日 加 入 一 条 750 美 元 的 条 目 。 这 种 方法 也 有 缺点 : 

。 及 时 简单 地 将 账户 重 设 为 当前 值 需要 对 应 用 与 过 程 进行 约定 。 

。 这 种 重 设 的 方法 不 能 对 过 去 的 错误 进行 准确 的 解释 。 

方法 3 在 月 底 不 能 结算 支票 支付 账户 余额 时 就 可 能 会 使 用 。 你 不 会 对 银行 都 做 了 些 什 么 创 
根 问 底 ， 而 仅仅 是 接受 银行 的 解释 并 重 设 账户 余额 。 

当 错 误 数据 进入 数据 仓库 时 ， 至 少 有 三 种 方法 可 以 对 它们 进行 处 理 。 根 据 不 同 的 条 件 ， 
选择 一 种 方法 可 能 比 其 他 方法 更 优越 。 


2.15 小 结 


数据 的 粒度 与 分 区 是 进行 数据 仓库 设计 决策 的 两 个 最 重要 方面 。 对 于 大 部 分 机 构 来 说 ， 
采用 双重 粒度 是 非常 有 意义 的 。 数 据 分 区 是 将 数据 分 解 成 为 小 的 物理 单元 。 通 常 ， 分 区 是 在 
应 用 层 而 非 系 统 层 进行 。 

数据 仓库 开发 最 好 是 以 反复 的 方式 进行 。 首 先 ， 建 立 数 据 仓库 的 一 部 分 ， 然 后 再 建立 另 
一 部 分 。 幻 想 一 次 建成 数据 仓库 永远 是 不 合适 的 。 其 中 一 个 原因 是 数据 仓库 的 最 终 用 户 工作 
于 一 种 发 现 模式 下 ， 只 有 在 数据 仓库 的 第 一 次 循环 开发 完成 后 ， 开 发 者 才能 确定 数据 仓库 中 
究竟 应 该 包含 些 什 么 。 

数据 仓库 中 数据 的 粒度 是 数据 仓库 设计 中 最 重要 的 问题 。 非 常 低 的 粒度 会 带 来 大 量 数据 ， 
系统 最 终 会 被 巨大 的 数据 量 所 压 震 。 非 常 高 的 粒度 虽然 处 理 起 来 高 效 ， 但 却 不 能 进行 许多 需 
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要 细节 数据 的 分 析 。 此 外 ， 数 据 仓库 中 粒度 的 选择 应 当 在 清楚 地 知道 哪些 体系 结构 部 件 需 要 
从 数据 仓库 获取 数据 的 前 提 下 进行 。 

令 人 惊奇 的 是 有 许多 设计 也 可 以 用 来 处 理 粒度 的 问题 。 其 中 一 种 方法 是 建立 一 个 服务 于 
不 同类 型 查询 与 分 析 的 双重 粒度 的 多 层 数 据 仓库 。 另 一 种 方法 是 建立 一 个 活 样本 数据 库 ， 这 
样 统计 处 理 就 可 以 在 这 个 活 样本 数据 库 上 进行 非常 高 效 的 处 理 。 

数据 仓库 的 分 区 也 由 于 许多 原因 而 特别 重要 。 数 据 分 区 使 得 数据 可 以 在 小 的 分 开 的 离散 
单元 中 进行 管理 。 这 使 得 数据 仓库 中 的 数据 装载 变 得 简单 ， 建 立 索 引 也 更 上 顺畅， 数据 归档 也 
变 得 容易 ， 等 等 。 至 少 有 两 种 对 数据 进行 分 区 的 方法 一 一 在 DBMS/ 操 作 系 统 层 和 在 应 用 层 。 
每 一 种 分 区 方法 都 有 各 自 的 优 缺 点 。 

数据 仓库 环境 中 的 每 一 数据 单元 都 有 一 个 时 刻 与 它 关 联 。 一 些 情况 下 ， 这 个 时 刻 在 每 个 
记录 中 以 快照 的 形式 出 现 。 另 一 些 情况 下 ， 这 个 时 间 是 应 用 于 整个 表 的 。 数 据 经 常 是 按 天 ， 
月 或 季度 汇总 的 。 另 外 ， 数 据 以 一 种 连续 的 方式 创建 。 数 据 的 内 部 时 间 组 织 可 以 用 多 种 形式 
实现 。 

审计 可 以 在 数据 仓库 中 进行 ， 但 却 不 应 当 在 其 中 进行 。 相 反 ， 审 计 最 好 置 于 细节 的 面向 
操作 型 事务 的 环境 中 进行 。 在 数据 仓库 中 进行 审计 将 会 导致 大 量 本 来 不 会 包含 在 其 中 的 数据 
被 包含 进去 ， 数 据 仓库 的 更 新 定时 也 会 成 为 问题 ， 并 且 审 计 会 强制 数据 仓库 采用 某 种 粒度 级 ， 
但 这 可 能 并 不 是 其 他 处 理 所 需 的 粒度 级 。 

数据 仓库 中 数据 的 生命 周期 包含 了 数据 的 清理 。 开 发 者 经 常 在 设计 规范 中 忽视 了 清理 ， 
结果 导致 数据 仓库 永远 地 增长 下 去 ， 这 当然 是 不 可 能 的 。 
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第 3 章 ”设计 数据 仓库 
建造 数据 仓库 主要 包括 两 个 部 分 的 工作 一 一 与 操作 型 系统 接口 的 设计 和 数据 仓库 本 身 的 
设计 。 因 为 “设计 ”一 词 暗 含 了 可 以 预先 对 组 成 单元 进行 规划 的 意思 ， 所 以 用 在 这 里 并 不 完 
全 准确 。 数 据 仓 库 的 需求 只 "有 在 已 经 装载 了 部 分 数据 并 开始 使 用 时 才能 弄 清 想 ， 因 此 ， 过 去 
很 有 效 的 设计 方法 在 设计 数据 仓库 时 并 不 能 满足 需要 。 数 据 仓 库 是 在 启发 方式 下 建造 的 ， 在 
这 个 过 程 中 一 个 阶段 的 开发 完全 依赖 于 上 一 阶段 获得 的 结果 。 首 先 ， 载 入 一 部 分 数据 供 DSS 
分 析 员 使 用 和 查看 。 然 后 根据 最 终 用 户 的 反馈 ， 修 改 数据 和 /或 添加 其 他 数据 。 然 后 建立 数据 
仓库 的 另 一 部 分 ， 如 此 继续 。 这 种 反馈 过 程 贯 穿 于 数据 仓库 的 整个 开发 生命 周期 之 中 。 
因此 ， 数 据 仓库 的 设计 不 能 采用 与 传统 的 需求 驱动 的 系统 相同 的 方法 进行 。 但 与 此 同时 ， 
对 需求 进行 预测 仍然 是 十 分 重要 的 。 实 际 情况 通常 是 介 于 这 二 者 之 间 。 


3.1 从 操作 型 数据 开始 


设计 时 首先 要 考虑 的 问题 是 如 何 将 数据 放置 在 数据 仓库 中 。 数 据 从 操作 型 环境 到 数据 仓 
库 的 放置 过 程 中 有 许多 需要 考虑 的 东西 。 

起 初 ， 面 向 事务 处 理 的 操作 型 数据 被 封锁 在 现 有 历史 系统 中 。 虽 然 “ 创 建 数据 仓库 就 是 
从 操作 环境 中 抽取 数据 然后 将 这 些 数 据 载 人 数据 仓库 ”这 种 想法 非常 诱 人 ， 但 是 事实 远 非 如 
此 。 仅仅 是 将 数据 从 历史 环境 中 取出 并 放 到 数据 仓库 中 几乎 挖掘 不 出 数据 仓库 的 任何 潜力 。 

图 3-1 简 单 地 示 出 了 数据 从 现 有 历史 系统 环境 转移 到 数据 仓库 的 过 程 。 这 里 ， 我 们 可 以 看 
到 ， 有 多 个 应 用 向 数据 仓库 提供 数据 。 


数据 仓库 





现 有 应 用 


图 3-1 将 数据 从 操作 型 环境 移 人 数据 仓库 环境 不 是 简单 的 抽取 
图 3-1 显 得 过 于 简单 了 ， 这 有 很 多 原因 。 最 重要 的 一 个 原因 是 ， 这 一 过 程 没有 考虑 到 操作 
型 环境 中 的 数据 是 未 经 集成 的 。 图 3-2 描 述 了 一 个 典型 的 现 有 系统 中 缺乏 集成 的 情况 。 将 未 经 
集成 的 数据 载 入 到 数据 仓库 是 一 个 极端 严重 的 错误 。 
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相间 的 数据 ， 不 同 的 数据 ， 这 里 的 数据 不 在 。 ”不同 的 关键 字 ， 
不 同 的 名 字 相同 的 名 字 其 他 地 方 出 现 相同 的 数据 


图 3-2 源 自 不 同 应 用 的 数据 集成 性 很 差 


在 建立 现 有 应 用 时 ， 根 本 没有 考虑 过 以 后 可 能 存在 的 集成 问题 。 每 一 个 应 用 都 有 其 独 有 
的 特殊 的 需求 。 因 此 ， 出 现 相 同 的 数据 以 不 同 的 名 字 出 现在 各 个 地 方 ， 一 些 数据 在 不 同 的 地 
方 以 相同 的 方式 标注 ， 一 些 数据 用 相同 的 名 字 存 在 相同 的 地 方 却 使 用 了 不 同 的 度量 单位 等 等 ， 
也 就 不 足 为 奇 了 。 从 多 处 抽取 数据 并 将 数据 集成 到 一 个 统一 的 视图 中 是 一 个 十 分 复杂 的 问题 。 

数据 缺乏 集成 是 抽取 程序 员 不 得 不 面 对 的 一 场 哮 梦 。 如 图 3-3 所 示 ， 为 了 从 操作 型 环境 中 
适当 地 取出 数据 ， 必 须 对 无 数 细 节 编 程 并 进行 一 致 性 处 理 。 





























编码 转换 数据 仓库 
应 用 A mf m,f 
应 用 B 10 是 / 
应 用 D 男女 国 
度量 单位 转换 数据 仓库 
应 用 A 管道 (厘米) 
应 用 B 管道 (英寸 ) 国 四 米 
应 用 C 管道 ( 千 立方 英尺 ) Le 
应 用 D 管道 ( 码 ) — 
WW 数据 仓库 
应 用 A balance | | 
应 用 B bal 一 一 一 一 一 一 一 一 一 一 二 om 
应 用 C eurrbal 上 -一 一 一 
应 用 D balcurr > 图 





图 3-3 为 了 将 现 有 系统 环境 中 的 数据 正确 地 移 到 数据 仓库 环境 中 ， 必 须 进行 集成 


数据 缺乏 集成 的 一 个 简单 例子 就 是 数据 编码 不 一 致 ， 如 图 中 对 性 别 的 不 同 编码 。 在 一 个 应 
用 中 ， 性 别 编 码 为 “m/f”; 另 一 个 应 用 中 则 编码 为 “0/1”; 还 有 一 个 应 用 编码 为 “x/y7"。 当 然 ， 
在 数据 仓库 中 ， 只 要 性 别 的 编码 的 方法 一 致 ， 至 于 怎样 编码 这 个 问题 并 没有 什么 关系 。 因 此 ， 
当 数 据 进 入 仓库 时 ， 必 须 先 对 各 个 应 用 的 不 同 值 进行 正确 地 译 码 ， 然 后 再 重新 编码 为 合适 的 值 。 

我 们 来 看 另外 一 个 例子 。 四 个 应 用 都 含有 字段 “管道 "， 但 在 每 个 的 应 用 中 却 使 用 了 不 同 
的 度量 单位 。 一 个 应 用 中 管道 的 度量 单位 是 英寸 ， 另 一 个 是 厘米 ， 等 等 。 在 数据 仓库 中 采用 
什么 单位 对 管道 进行 度量 并 不 重要 ， 但 必须 一 致 。 当 每 一 个 应 用 向 数据 仓库 传送 数据 时 ， 必 
须 将 管道 的 度量 单位 转换 为 惟一 并 且 一 致 的 全 局 度量 标准 。 

字段 语义 的 转换 是 数据 集成 的 另 一 个 问题 。 例 如 同一 字段 在 四 个 应 用 中 有 四 个 不 同 的 名 
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字 。 为 了 转换 数据 使 其 正确 地 进入 仓库 ， 就 必须 建立 各 个 不 同 源 字段 到 数据 仓库 字段 的 映射 。 
另外 一 个 问题 是 原 有 数据 在 不 同 的 DBMS 下 可 能 以 多 种 不 同 格式 存储 。 一 些 原 有 数据 在 

IMS 中 ， 一 些 在 DB2 中 ， 还 有 一 些 可 能 在 VSAM 中 。 为 了 给 数据 仓库 添加 数据 ， 所 有 采用 这 些 

技术 存储 的 数据 最 后 都 必须 转换 到 同一 种 技术 下 存储 。 这 种 技术 的 转换 并 不 总 是 很 简单 的 。 

这 些 简单 的 例子 几乎 还 未 涉及 到 集成 的 最 浅 层 ， 并 且 就 例子 本 身 来 说 也 不 复杂 。 但 是 当 
数 以 千 计 的 系统 和 文件 中 存在 这 些 情 况 ， 并 且 文 档 过 时 或 根本 没有 文档 时 ， 集 成 问题 就 成 了 
十 分 复杂 而 又 繁重 的 工作 了 。 

但 是 ， 对 现 有 历史 系统 的 集成 并 不 是 从 现 有 操作 型 系统 到 数据 仓库 系统 中 的 数据 转换 工 
作 的 惟一 难点 。 另 一 个 主要 问题 是 访问 现 有 系统 数据 的 效率 。 扫 描 现 有 系统 的 程序 如 何 知 道 
一 个 文件 已 经 被 扫描 过 呢 ? 现 有 系统 环境 中 有 大 量 的 数据 ， 每 次 进行 数据 仓库 装载 时 都 试图 
对 所 有 数据 扫描 一 次 ， 既 会 产生 极 大 浪费 ， 同 时 也 是 不 现实 的 。 

从 操作 型 环境 到 数据 仓库 有 三 种 装载 工作 要 做 : 

* 装载 档案 数据 。 

* 装载 在 操作 型 系统 中 的 现 有 数据 。 

“ 将 上 次 数据 仓库 刷新 以 来 在 操作 型 环境 中 不 断 发 生 的 变化 〈 更 新 ) 从 操作 型 环境 中 装载 

到 数据 仓库 中 。 

一 般 说 来 ， 数 据 仓库 刚 开始 装载 数据 时 从 历史 环境 中 装载 档案 数据 的 难度 不 是 很 大 ， 原 
因 有 两 点 。 一 是 因为 不 少 企 业 发 现在 很 多 环境 下 使 用 旧 的 数据 在 成 本 上 不 合算 ， 所 以 经 常 是 
根本 不 做 这 项 工作 ; 二 是 即使 要 装载 ， 档 案 数据 也 只 需要 装载 一 次 ， 所 以 难度 也 不 大 。 

同样 ， 从 现 有 的 操作 型 环境 中 装载 当前 的 、 非 档案 数据 由 于 只 需要 装载 一 次 ， 因 此 难度 
也 不 大 。 通 常 可 以 将 现 有 系统 环境 下 载 到 一 个 顺序 文件 中 ， 然 后 再 将 这 个 顺序 文件 下 载 到 数 
据 仓 库 中 ， 这 样 就 不 会 对 在 线 环境 产生 什么 破坏 。 当 然 这 要 占用 系统 资源 ， 由 于 这 个 过 程 仅 
执行 一 次 ， 也 就 把 可 能 的 破坏 作用 减 到 了 最 小 。 

对 数据 体系 结构 设计 者 而 言 ， 当 操作 型 环境 发 生变 化 时 ， 不 断 地 将 变化 数据 装载 到 仓库 
中 是 最 为 困难 的 。 要 有 效 地 捕捉 到 那些 不 断 发 生 的 日 常 变化 ， 并 对 之 进行 处 理 并 非 是 一 件 容 
易 的 事 。 于 是 ， 扫 描 现 有 系统 的 文件 成 了 数据 仓库 体系 结构 设计 者 要 面 对 的 宝 要 问题 。 

如 图 3-4 所 示 ， 数 据 仓 库 刷 新 时 ， 为 了 限制 扫描 的 操作 型 数据 量 ， 通 常 可 以 采用 五 种 技术 。 
第 一 种 技术 是 扫描 在 操作 型 环境 中 那些 被 打上 时 戳 的 数据 。 当 一 个 应 用 对 记录 的 最 近 一 次 变 
化 或 更 新 打上 时 蕉 时 ， 数 据 仓 库 扫描 就 能 够 很 有 效 地 进行 ， 因 为 日 期 不 相符 的 数据 就 不 必 处 
理 了 。 然 而 ， 当 前 被 打上 时 截 的 数据 很 少 。 

第 二 种 控制 扫描 数据 量 的 技术 是 扫描 增 量 文件 。 增 量 文件 只 包含 在 操作 型 环境 中 运行 的 
事务 的 结果 对 应 用 造成 的 改变 。 有 了 增 量 文件 ， 扫 描 的 过 程 变 得 高 效 ， 因 为 不 在 候选 扫描 集 
中 的 数据 永远 不 会 涉及 到 。 然 而 ， 只 有 很 少 应 用 创建 增 量 文件 。 

第 三 种 技术 是 对 作为 事务 处 理 的 副产品 产生 的 日 志文 件 或 审计 文件 进行 扫描 。 日 志文 件 
所 包含 的 内 容 与 增 量 文件 基本 相同 ， 但 是 两 者 还 是 有 一 些 重 要 的 区 别 。 由 于 恢复 过 程 需要 日 
志文 件 ， 所 以 很 多 时 候 计 算 机 负责 部 门 要 保护 日 志文 件 。 当 然 把 日 志文 件 用 于 主要 目的 以 外 
的 其 他 用 途 ， 对 计算 机 负责 部 门 也 无 大 碍 。 利 用 日 志文 件 的 另 一 个 困难 是 它 的 内 部 格式 是 针 
对 系统 用 途 构造 的 ， 而 不 是 针对 应 用 程序 的 ， 这 就 需要 有 一 种 技术 手段 来 作为 日 志 磁 带 数据 
内 容 的 接口 。 日 志文 件 的 另 一 个 缺点 是 其 中 所 包含 的 内 容 比 数据 仓库 开发 人 员 所 需要 的 内 容 
要 多 得 多 。 审 计 文件 有 许多 与 日 志文 件 相同 的 缺点 。 使 用 日 志文 件 来 更 新 数据 仓库 的 一 个 例 
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子 是 基于 网 络 的 电子 商务 环境 所 创建 的 网 络 日 志 。 


2 - 时 间 惟 


现 有 应 用 

















前 映像 。 后 映像 
中 局 一 
Se 
上 次 更 新 后 数 
据 库 的 变化 


图 3-4 你 怎样 知道 要 扫描 哪些 源 数据 ? 每 天 ， 每 周 都 要 扫描 每 个 记录 吗 


控制 扫描 数据 量 的 第 四 种 技术 是 修改 应 用 程序 代码 。 这 并 不 常用 ， 因 为 很 多 应 用 程序 的 
代码 陈旧 而 且 不 易 修改 。 

最 后 一 种 可 供 选 择 的 技术 (很 多 情况 下 ， 这 都 是 一 个 可 怕 的 选择 ， 提 及 这 种 技术 的 目的 
只 是 为 了 说 服 人 们 必须 使 用 一 种 更 好 的 办 法 ) 是 将 一 个 “前 ”映像 文件 和 一 个 “后 ”映像 文 
件 进行 比较 。 使 用 这 种 方法 ， 抽 取 时 就 建立 一 个 数据 库 的 快照 。 另 一 轮 抽取 时 ， 建 立 另 一 个 
快照 。 然 后 将 这 两 个 快照 顺序 比较 ， 以 确定 已 发 生 的 业务 活动 。 这 种 方法 很 麻烦 、 复 杂 ， 还 
需要 各 种 各 样 的 资源 ， 只 不 过 是 没有 办 法 时 才 采 用 的 办 法 。 

但 是 ， 集 成 和 性 能 并 不 是 仅 有 的 两 个 使 得 简单 的 抽取 过 程 无 法 用 于 构造 数据 仓库 的 主要 
问题 。 第 三 个 主要 困难 是 数据 从 操作 型 环境 到 数据 仓库 时 要 经 历 的 时 基 变 化 ， 如 图 3-5 所 示 。 

时 基 变 化 


日 余额 


日 余额 





日 余额 
交易 成 功 完成 产生 新 的 余额 一 天 结束 时 的 余额 
图 3-5 当 数 据 从 操作 型 环境 移 到 数据 仓库 环境 时 ， 时 基 要 发 生变 化 
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现 有 的 操作 型 数据 通常 是 当前 值 数 据 。 当 前 值 数 据 在 被 访问 的 时 刻 是 准确 有 效 的 ， 而 且 
是 可 更 新 的 。 但 是 数据 仓库 中 的 数据 是 不 能 更 新 的 ， 此 外 ， 这 些 数 据 必 须 附 加 上 时 间 元 素 。 
当 数据 从 操作 型 环境 传送 到 数据 仓库 时 ， 其 处 理 方法 也 要 发 生 很 大 改变 。 

当 数据 从 现 有 操作 型 环境 传送 到 数据 仓库 时 ， 要 考虑 的 另 一 个 问题 是 需要 对 数据 仓库 中 
已 有 的 及 要 传人 数据 的 规模 进行 管理 。 数 据 在 抽取 和 进入 数据 仓库 时 都 要 进行 压缩 ， 否 则 数 
据 仓 库 中 的 数据 量 就 会 失控 。 图 3-6 所 示 为 一 种 简单 的 数据 压缩 形式 。 


| 管理 大 量 数据 





如 果 没 有 认真 地 管理 和 压缩 大 量 
的 数据 ， 那 么 仅仅 是 聚集 在 数据 


仓库 中 的 全 部 数据 量 就 会 使 得 数 
据 仓库 的 目标 难以 真正 实现 。 





图 3-6 数据 压缩 是 数据 仓库 数据 的 管理 中 至 关 重 要 的 内 容 


3.2 数据 /过 程 模型 与 体系 结构 化 环境 


设计 者 在 尝试 使 用 传统 的 数据 库 设 计 方 法 之 前 ， 必 须 明 白 这 些 方法 的 适用 范围 及 其 局 限 
性 。 图 3-7 说 明了 体系 结构 层次 间 的 关系 及 数据 建 模 和 过 程 建 模 所 适用 的 范围 。 过 程 模型 仅仅 
适用 于 操作 型 环境 。 数 据 模 型 既 可 用 于 操作 型 环境 ， 又 可 用 于 数据 仓库 环境 。 数 据 模型 或 过 
程 模型 用 错 了 地 方 ， 只 会 导致 失败 。 

我 们 将 在 下 面 详 细 介绍 数据 模型 。 现 在 ， 我 们 先 来 了 解 过 程 模型 。 一 个 过 程 模型 一 般 
(整个 或 部 分 地 ) 包括 以 下 内 容 : 

。 功 能 分 解 。 

。 第 零 层 上 下 文 图 。 

* 数据 流 图 。 

。 结 构图 。 

* 状态 转换 图 。 

。HIPO 图 。 

* 伪 代码 。 

在 许多 场合 和 环境 下 ， 过 程 模型 都 是 非常 宝贵 的 ， 如 在 建立 数据 集 市 时 。 由 于 过 程 模型 
是 需求 驱动 的 ， 因 此 不 适用 于 数据 仓库 。 它 假设 在 详细 设计 开始 之 前 需求 是 已 知 的 。 对 于 许 
多 过 程 ， 是 可 以 这 样 假设 的 。 但 这 样 的 假设 在 建造 数据 仓库 时 并 不 成 立 。 
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企业 模型 、 操 作 型 模 
十 四 型 与 数据 仓库 模型 


Fa 、 i 


操作 层 数据 仓库 层 A 


国 古 本 开本 于 下 


数据 仓库 
sen 


过 程 模型 
图 3-7 如 何在 体系 结构 化 环境 中 应 用 不 同类 型 的 模型 


3.3 数据 仓库 与 数据 模型 


如 图 3-8 所 示 ， 数 据 模型 既 适 用 于 现 有 系统 环境 也 适用 于 数据 仓库 环境 。 图 3-8 所 示 的 是 一 
个 企业 数据 模型 ， 该 模型 建造 时 没有 考虑 现 有 操作 型 系统 与 数据 仓库 之 间 的 差别 。 该 企业 数 
据 模型 关注 并 且 只 表示 原始 数据 。 要 建立 一 个 独立 的 现 有 系统 的 数据 模型 ， 需 要 从 该 企业 模 
型 开始 。 然 而 ， 当 对 企业 数据 模型 进行 转换 以 应 用 于 现 有 系统 环境 时 ， 性 能 因素 应 加 到 该 模 
型 中 。 总 之 ， 企 业 数据 模型 用 于 操作 型 系统 时 ， 需 要 做 的 改动 非常 少 。 

但 是 ， 将 企业 模型 用 到 数据 仓库 中 要 做 相当 多 的 改动 。 首 先 ， 要 去 除 纯粹 用 于 操作 型 环 
境 中 的 数据 。 然 后， 在 企业 数据 模型 的 关键 字 结 构 中 增加 时 间 元 素 。 将 导出 的 数据 加 到 企业 
数据 模型 中 ， 这 些 导 出 数据 作为 公用 并 只 经 过 一 次 计算 ， 而 不 是 重复 计算 。 最 后 ， 在 数据 仓 
库 中 将 操作 型 系统 中 的 数据 关系 转变 为 “人 工 关系 ”。 

将 企业 数据 模型 转变 为 数据 仓库 数据 模型 的 最 后 一 项 设计 工作 是 进行 稳定 性 分 析 。 稳 定 
性 分 析 是 根据 各 个 数据 属性 是 否 经 常 变化 的 特性 将 这 些 属性 分 组 。 图 3-9 说 明了 为 制造 业 环境 
进行 的 稳定 性 分 析 。 根 据 一 个 大 的 通用 目的 表 建 立 了 三 个 表 ， 表 的 划分 是 根据 各 表 中 的 数据 
对 稳定 性 的 需求 不 同 而 进行 的 。 

在 图 3-9 中 ， 很 少 变化 的 数据 分 到 一 组 ， 不 时 变化 的 分 到 一 组 ， 而 经 常 变化 的 又 分 为 一 组 。 
稳定 性 分 析 (通常 是 物理 数据 库 设 计 之 前 数据 建 模 的 最 后 一 步 ) 的 最 后 结果 就 是 建立 了 具有 
相似 特性 的 数据 分 组 。 

也 就 是 说 ， 企 业 数据 模型 是 操作 型 数据 模型 与 数据 仓库 数据 模型 的 共同 起 源 。 可 以 做 一 
个 简单 的 类 比 ， 企 业 数 据 模型 是 亚当 ， 操 作 型 数据 模型 是 该 隐 ， 而 数据 仓库 数据 模型 则 是 亚 
伯 。 他 们 都 是 同一 血统 ， 但 同时 却 又 各 不 相同 。 





讼 计数 据 个 库 


/ 


数据 模型 


me 
数据 模型 加 目 操作 型 数据 杭 型 国 数据 仓库 数据 模型 
| 数据 仓库 


操作 型 环境 

,操作 型 数据 模型 等 价 于 企业 数据 模型 和 

“ 数据 库 设计 之 前 要 加 入 性 能 因素 “从 了 

数据 库 设 计 之 前 要 加 入 性 能 因素 和 
,创建 人 工 关系 


图 3-8 建 模 的 不 同 层次 间 的 关系 





很 少 更 改 不 时 更 改 经 常 更 改 
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图 3-9 稳定 性 分 析 的 一 个 例子 
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3.3.1 数据 仓库 的 数据 模型 


数据 建 模 分 为 三 个 层次 : 高 层 建 模 ( 称 为 实体 关系 图 ， 或 ERD )， 中 间 层 建 模 ( 称 为 数据 
项 集 或 DIS)、 底 层 建 模 ( 称 为 物理 模型 )。 

注意 ”已 经 有 很 多 其 他 关于 数据 建 模 的 书 出 版 了 ， 这 些 书 对 几 种 不 同 的 方式 都 有 详细 

介绍 。 随 便 找 出 几 种 都 可 以 成 功 地 用 于 建造 数据 仓库 。 要 更 深入 地 了 解 在 这 里 总 结 的 

方法 ， 可 以 参阅 我 以 前 写 的 书 Information Systems architecture: Development in the 90s 

[Hoboken, NJ: Wiley, 1993]。 

如 图 3-10 所 示 高 层 建 模 以 实体 和 关系 为 特征 。 椭 圆 内 是 实体 的 名 字 ， 实 体 间 的 关系 用 箭 
头 描述 。 箭 头 的 方向 和 数量 表示 关系 的 基数 ， 并 且 只 给 出 直接 关系 ， 这 样 关 系 的 传递 依赖 数 
目 最 小 化 。 


C > 一 个 椭圆 表示 一 个 实体 或 者 主要 主题 
一 对 多 的 关系 


一 一 一 一 一 对 一 的 关系 
+ 一 一 一 多 对 多 的 关系 


个 < 


SS 单 的 ERD 








图 3-10 实体 与 关系 的 表示 


在 ERD 层 的 实体 处 于 最 高 抽象 层 。 由 集成 范围 这 个 术语 表示 的 内 容 决 定 哪些 实体 属于 模 
型 范围 而 哪些 不 属于 ， 如 图 3-11 所 示 。 集 成 范围 定义 了 数据 模型 的 边界 ， 而 且 集 成 范围 需要 
在 建 模 之 前 进行 定义 。 这 个 范围 由 系统 的 建 模 者 、 管 理 人 员 和 最 终 用 户 共同 确定 。 如 果 范 围 
没有 预先 确定 ， 建 模 过 程 就 很 有 可 能 一 直 持 续 下 去 。 写 出 来 的 集成 范围 定义 应 该 不 超过 5 页 ， 
而 且 应 该 使 用 业务 人 员 可 以 理解 的 语言 。 

如 图 3-12 所 示 ， 企 业 ERD 是 由 很 多 反映 整个 企业 内 不 同人 员 的 不 同 观点 的 单个 的 ERD 合 
成 的 。 为 企业 内 不 同 群体 建立 的 独立 的 高 层 数据 模型 组 合 在 一 起 ， 就 构成 了 企业 ERD。 

表示 了 各 个 DSS 群 体 已 知 需 求 的 这 些 ERD 是 通过 用 户 观点 或 联合 应 用 设计 (JAD) 讨论 会 
的 方法 建立 的 ， 也 就 是 通过 与 各 个 不 同 部 门 中 合适 的 工作 人 员 交 流 得 来 的 。 


3.3.2 中 间 层 数据 模型 


高 层 数据 模型 建 好 之 后 ， 要 建立 下 一 层 即 中 间 层 模型 (DIS)。 如 图 3-13 所 示 ， 对 高 层 模 
型 中 标识 出 的 每 个 主要 主题 域 或 实体 ， 都 要 建立 一 个 中 间 层 模型 。 高 层 数 据 模型 标识 了 四 个 
实体 或 主要 主题 域 ， 每 个 主题 域 都 要 再 进一步 扩展 成 各 自 的 中 间 层 模型 。 
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图 3-11 集成 范围 决定 了 企业 的 哪些 部 分 将 在 数据 模型 中 得 到 体现 


用 户 现 所 (1 一 本 


ERD(1) 


用 户 观点 (2) 


ERD(2) 
> 企业 ERD 
用 户 观点 (3) 一 


ERD(3) 


用 户 观点 (n) 一 一 一 > $5" 


ERD(n) 
图 3-12 企业 ERD 由 反映 不 同 的 用 户 观点 的 ERP 构 造 而 成 
有 趣 的 是 ， 所 有 的 中 间 层 模型 只 有 在 很 少 的 情况 下 能 一 次 全 部 建 好 。 某 个 主要 主题 域 的 


中 间 层 数据 模型 扩展 后 ， 首 先 对 模型 的 一 部 分 进行 充实 ， 模 型 的 其 他 部 分 仍然 保持 不 变 ， 如 
此 继续 。 
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~ ERD 


pis [D477 


图 3-13 ERD 中 的 每 个 实体 由 与 其 对 应 的 DIS 进 一 步 定 义 


如 图 3-14 所 示 ， 在 中 间 层 数据 模型 上 ， 有 四 个 基本 的 构造 : 

日 主 要 数据 分 组 : 每 个 主要 主题 域 有 且 只 有 一 个 主要 数据 分 组 ， 其 中 包含 了 对 每 个 主要 主 
题 域 只 存在 一 次 的 属性 。 同 所 有 的 数据 分 组 一 样 ， 主 要 数据 分 组 包含 每 个 主要 主题 域 的 
属性 和 关键 字 。 

时 二 级 数据 分 组 : 二 级 数据 分 组 包含 每 个 主要 主题 域 可 以 存在 多 次 的 数据 属性 。 从 主要 数 
据 分 组 向 下 的 直线 段 指示 出 了 二 级 数据 分 组 。 有 多 少 个 可 以 出 现 多 次 的 不 同 数据 分 组 ， 
就 可 以 含有 多 少 个 二 级 数据 分 组 。 

甸 连 接 器 : 表示 两 个 主要 主题 域 间 的 数据 关系 。 连 接 器 将 一 个 分 组 的 数据 与 另 一 个 分 组 的 
数据 联系 起 来 。 在 ERD 层 确定 的 每 一 个 关系 在 DIS 层 必须 有 与 其 对 应 的 连接 器 。 通 常 是 
用 一 个 有 下 划 线 的 外 键 来 指示 连接 器 。 

到 数据 的 “类 型 : 数据 的 类 型 由 指向 数据 分 组 右边 的 线段 指示 。 左 边 的 数据 分 组 是 超 类 
型 ， 右 边 的 数据 分 组 是 数据 的 子 类 型 。 


主要 数据 分 组 


~ 
~ 
~ 









| 关键 字 
XXXXXX 
XXXXXX 


关键 字 


XXXXXX 
XXXXXX 











~ 


____ ”数据 的 “类 型 





关键 字 
XXXXXX 
XXXXXX 


_ Ed 
E# 
关键 字 上 
xxxxxx 下 
Xxxxxx 攻 


图 3-14 中 间 层 数据 模型 的 四 个 组 成 部 分 
这 四 个 数据 模型 构造 用 来 标识 数据 模型 中 的 数据 属性 和 这 些 属 性 间 的 关系 。 当 在 ERD 层 
标识 了 一 个 关系 以 后 ， 在 DIS 层 就 用 一 对 连接 器 关系 来 表现 ， 图 3-15 示 出 了 这 些 连接 器 关系 对 
的 一 个 例子 。 
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图 3-15 在 ERD 中 标明 的 关系 在 DIS 中 由 连接 器 体现 。 注 意 ， 图 中 只 给 出 了 一 个 连接 器 (从 账号 
到 顾客 )。 实 际 上 ， 从 顾客 到 账号 的 另 一 个 连接 器 将 表示 在 顾客 DIS 的 其 他 地 方 


在 ERD 中 ， 标 识 出 了 顾客 《CUSTOMER ) 和 账户 《ACCOUNT) 之 间 的 关系 。 在 账户 的 
DIS 层 ， 在 账户 下 有 一 个 到 顾客 的 连接 器 ， 说 明 一 个 账户 可 能 附 有 多 个 顾客 。 图 3-15 中 并 没有 
给 出 顾客 DIS 层 中 知客 下 对 应 的 关系 。 在 顾客 的 DIS 层 ， 应 该 有 一 个 到 账户 的 连接 器 ，、 说 明 一 
个 顾客 可 以 有 一 个 或 多 个 账户 。 

图 3-16 示 出 了 一 个 全 部 展开 的 DIS 的 例子 。 这 个 例子 是 一 个 金融 机 构 中 账户 的 DIS， 所 有 
的 不 同 构 造 都 在 该 DIS 中 表示 出 来 了 。 


ER 如 
这 从 人 
开间 期 A 
年 
DE | 时 生产 -家 上 
国家 全 频 色 
i 
i 
限 伯 
到 期 日 其 


图 3-16 一 个 扩展 的 DIS， 表 明了 银行 可 提供 的 不 同 贷款 类 型 


需要 特别 注意 一 下 ， 从 一 个 数据 分 组 引出 的 线 的 两 种 “类 型 ”， 如 图 3-17 所 示 。 引 到 右边 
的 两 条 线 说 明 存 在 标准 的 商 种 “类 型 。 一 条 线 的 标准 是 根据 业务 类 型 一 一 或 者 是 存款 或 者 是 
提 款 。 男 一 条 线 则 指明 田 一 种 标准 一 一 或 者 是 ATM 业 务 或 者 是 柜员 业务 。 总 之 ， 两 种 类 型 的 
业务 活动 都 包括 下 面 的 交易 : 

ATM 存 款 。 

下 ATM 提 款 。 

晶 柜 员 存 款 。 

至 柜员 提 款 。 

这 个 图 表 的 另 一 个 特点 是 所 有 的 公用 数据 在 左边 ， 所 有 的 独 有 数据 在 右边 。 例 如 ， 日 期 
(date) 和 时 间 (time) 属性 是 所 有 交易 都 有 的 ， 但 是 ， 现 金库 余额 属性 只 与 出 纳 业务 有 关 。 
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余额 需要 核实 ? 
使 用 ID? 
现金 /支票 /其 他 ? 







这 个 DIS 所 反映 的 业务 活动 类 型 ; 


。ATM 存 款 
。ATM 提 款 
“ 出纳 存款 
“ 出 纳 提 款 


图 3-17 显示 不 同 子 分 类 标准 的 一 个 DIS 


由 数据 模型 产生 的 物理 表 和 数据 模型 的 关系 如 图 3-18 所 示 。 一 般 来 讲 ， 数 据 模 型 的 每 个 
数据 分 组 都 将 产生 一 个 在 数据 库 设 计 过 程 中 定义 的 表 。 假 设 是 这 样 ， 两 个 交易 将 产生 一 些 表 
条 目 ， 如 图 3-18 所 示 。 下 面 的 两 个 交易 产生 了 图 中 的 物理 表 条 目 : 


DIS 造成 不 同类 型 的 数据 将 存在 于 独立 的 表 中 
存款 表 


存款 






票据 需要 邮寄 ? 
提 款 表 





余额 需要 核实 ? 
使 用 ID? 
现金 /支票 /其 他 ? 






银行 活动 表 





出 纳 表 





图 3-18 两 个 交易 所 生成 的 表 条 目 
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四 1 月 2 日 下 午 1:31，ATM 提 款 。 

鼻 1 月 5 日 下 午 3:15， 出 纳 存款 。 

两 个 交易 生成 5 个 不 同 表 中 的 6 个 条 目 。 

如 同 企业 ERD 是 由 反映 不 同 用 户 群 体 的 不 同 ERD 所 建成 的 ， 企 业 DIS 由 多 个 DIS 建成 ， 如 
图 3-19 所 示 。 当 对 个 别 用 户 的 访问 或 JAD 会 议 完成 时 ， 就 要 生成 一 个 DIS 和 一 个 ERD。 小 范围 
的 DIS 和 其 他 所 有 DIS 一 起 形成 一 个 反映 企业 观点 的 DIS 。 


用 户 观点 (1) = 一 2 
| ERD(1 
DIS(1) (1 


用 户 观点 (2) 5 
ERD(2) 0 
wm 4 企业 ERD 
用 户 现 点 (3) 一 上 ERDG) | 


DIS(3) 


En 


用 户 观点 (n) < Fe 


DIS(n)} 


企业 DIS 





图 3-19 企业 DIS 由 作为 每 个 肌 户 观点 会 话 结果 创建 的 DIS 组 成 
3.3.3 物理 数据 模型 


物理 数据 模型 是 从 中 间 层 数据 模型 创建 而 来 的 ， 建立 物理 模型 通过 扩展 中 间 层 模型 ， 使 
模型 中 包含 有 关键 字 和 物理 特性 。 这 时 ， 物 理 数 据 模 型 看 上 去 像 一 系列 表 ， 这 些 表 有 时 称 作 
关系 表 。 

虽然 说 将 这 些 表 直 接 用 于 物理 数据 库 设计 的 想法 很 族人 ， 但 还 要 做 最 后 一 个 设计 步 又 ， 
这 就 是 进行 性 能 特性 的 优化 系数 。 在 数据 仓库 的 情况 下 ， 设 计 中 的 第 一 步 就 是 确定 数据 的 粒 
度 与 分 区 ， 这 一 步 至 关 重 要 。( 当然 ， 关 键 字 结 构 要 做 改变 ， 增 加 时 间 元 素 以 便 每 个 数据 单元 
都 相关 。) 

考虑 了 粒度 与 分 区 等 因素 以 后 ， 还 需要 将 其 他 的 许多 物理 设计 工作 加 进 这 项 设计 。 其 他 
的 物理 设计 因素 的 概要 内 容 如 图 3-20 所 示 。 物 理 设计 中 需要 考虑 的 各 种 因素 的 核心 是 物理 7O 
(输入 /输出 ) 的 使 用 情况 。 物 理 IO 就 是 将 数据 从 外 部 存储 器 调和 计算机， 或 者 将 数据 从 计算 
机 送 到 外 部 存储 器 ， 图 3-21 就 是 一 个 WO 的 简单 例子 。 





60 荣 3 重 





ss * 导出 数据 

物理 数据 库 设 计 * 预 格式 化 ， 预 分 配 
。 人 工 关系 
* 预 连 接 表 

图 3-20 从 数据 仓库 环境 中 获得 好 的 性 能 


yO 


加 回国 国 | ] 


图 3-21 最 大 限度 地 减少 不 得 不 进行 的 物理 IO 


数据 在 计算 机 和 外 部 存储 器 之 间 的 传送 以 块 为 单位 进行 。 对 性 能 而 言 ，LO 事 件 之 所 以 重 
要 ， 是 因为 存储 器 和 计算 机 间 的 数据 传输 速度 比 计算 机 运算 速度 要 慢 大 约 两 到 三 个 数量 级 。 
计算 机 内 部 运算 速度 以 纳 秒 计 ， 而 数据 的 传输 速度 是 以 毫秒 计 。 因 此 ， 物 理 VO 是 影响 性 能 的 
主要 因素 。 

数据 仓库 设计 者 的 工作 是 组 织 好 物理 数据 ， 以 保证 执行 一 次 物理 IO 能 返回 最 大 数量 的 
记录 。 

注意 ”这 里 不 是 盲目 地 将 大 量 记 录 从 DASD 传 到 主 存 中 ,而 是 将 那些 具有 高 访问 率 的 

大 量 记录 批量 传 入 的 一 种 非常 复杂 的 机 制 。 

例如 ， 假 定 程序 员 要 取 5 条 记录 。 如 果 这 些 记录 是 在 存储 器 不 同 的 数据 块 中 ， 就 需要 进行 
五 次 IO 操作 。 但 是 ， 如 果 程 序 员 能够 预见 到 这 些 数据 将 成 组 地 访问 ， 而 将 其 连续 存放 在 同一 
个 物理 块 中 ， 那 么 这 就 只 需要 一 次 IO 操作 。 无 疑 ， 这 样 使 程序 具有 更 高 的 运行 效率 。 

关于 数据 仓库 中 数据 物理 存放 的 问题 还 有 一 个 缓和 因素 : 数据 仓库 里 的 数据 一 般 不 更 新 。 
至 少数 据 仓 库 中 的 数据 更 新 是 罕见 的 例外 。 这 样 设计 者 就 可 以 大 胆 采用 一 些 在 数据 经 常 需要 
更 新 的 情况 下 不 能 接受 的 物理 设计 技术 。 


3.4 数据 模型 与 迭代 式 开发 


任何 情况 下 ,数据 仓库 都 应 当 以 侈 代 的 方式 进行 建造 。 选 代 式 开发 的 意思 是 首先 建造 数 
据 仓 库 的 一 部 分 ， 然 后 再 建造 另 一 部 分 ， 如 此 继续 。 为 了 说 明 逻 代 开 发 方式 的 重要 性 ， 下 面 
从 众多 原因 中 选 出 了 几 条 : 

留 业界 成 功 的 记录 强烈 地 建议 这 样 做 。 

四 最 终 用 户 在 第 一 遍 和 迭代 开发 完成 以 前 不 能 清晰 地 提出 需求 。 

自 只 有 实际 结果 切实 而 且 明 确 时 ， 管 理 部 门 才 会 做 出 充分 的 承诺 。 

到 必须 能 很 快 地 见 到 可 见 结果 。 

这 时 数据 模型 在 迭代 开发 中 担当 的 角色 可 能 还 不 明显 。 为 了 解释 数据 模型 在 迭代 开发 期 
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间 所 起 的 作用 ， 考 虑 如 图 3-22 所 示 的 典型 迭代 开发 过 程 。 
首先 ， 进 行 一 遍 开发 ， 然 后 另 一 遍 ， 如 此 继续 下 去 。 数 
据 仓 库 在 每 一 遍 开发 中 都 起 着 路 标的 作用 ， 如 图 3-23 所 第 a 遍 碗 代 
示 。 数 据 模型 不 仅 告诉 开发 者 需要 做 些 什么 ， 同 时 也 指 
明了 如 何 将 一 个 开发 步骤 同 其 他 的 开发 步 又 集成 到 一 起 。 
当 第 二 遍 开发 (也 就 是 第 二 次 迭代 ) 继续 进行 时 ， 
开发 人 员 相信 其 开发 将 能 与 第 一 遍 开 发 很 好 地 结合 ， 因 
为 所 有 的 开发 都 是 在 同一 数据 模型 驱动 下 进行 的 。 每 遍 
后 续 开 发 都 建立 在 前 一 遍 开发 的 基础 上 ， 结 果 ， 所 有 的 
开发 都 是 在 一 致 的 数据 模型 下 进行 的 。 由 于 基于 同一 个 ”图 3-22 不 同 迭 代 轮 次 的 数据 仓库 开发 
数据 模型 ， 各 遍 开 发 工作 的 结果 将 产生 一 个 内 聚 的 、 高 
度 和 谐 的 整体 ， 见 图 3-24。 





第 b 遍 迭代 





第 a 饥 迭代 | 1 D 








图 3-24 在 开发 工作 结束 时 ， 所 有 和 迭代 遍 次 的 开发 结果 融合 在 一 起 


当 不 同 遍 次 的 开发 是 在 不 同 的 数据 模型 上 进行 时 ， 
会 产生 很 多 重复 的 工作 和 很 多 相当 独立 的 不 连贯 的 开 
发 ， 图 3-25 就 说 明了 这 个 不 协调 的 结果 。 

在 数据 仓库 的 增 量 式 开发 和 迭代 式 开发 的 过 程 中 ， 
在 数据 模型 与 要 达到 长 期 集成 性 和 和 谐 工作 的 能 力 之 
间 ， 存 在 一 个 间接 的 但 很 重要 的 相互 关系 。 


3.5 规范 化 / 反 向 规范 化 
图 3-25 如 果 没 有 数据 模型 ， 不 同 遍 次 的 


数据 模型 处 理 的 输出 是 一 系列 表 ， 每 个 表 都 包含 开发 不 能 构成 一 个 内 聚 的 模式 。 不 同 遍 
关键 字 和 属性 。 常 规 的 输出 是 大 量 的 表 ， 其 中 每 个 表 ”开发 之 间 有 很 多 重 倒 ， 且 缺少 二 致 性 
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只 包含 少量 数据 。 虽 然 输 出 大 量 小 表 本 身 没 有 什么 不 对 ， 但 从 性 能 上 看 是 一 个 问题 。 如 图 3-26 
所 示 ， 看 一 下 程序 为 了 在 表 之 间 进 行动 态 连接 而 必须 做 的 工作 。 

如 图 3-26 ， 一 个 程序 开始 执行 ， 首 先 访问 一 个 表 ， 然 后 再 访问 另 一 个 表 。 为 了 成 功 运行 ， 
程序 必须 在 很 多 表 中 跳 来 跳 去 。 程 序 每 次 从 一 个 表 跳 到 另 一 个 ， 就 要 进行 LO ， 既 要 访问 数据 ， 
又 要 访问 索引 以 找到 这 些 数据 。 如 果 只 有 一 两 个 程序 需要 进行 WO， 那 是 不 成 问题 的 。 但 是 如 
果 当 所 有 的 程序 需要 进行 大 量 的 VO 时 ， 性 能 就 会 受到 影响 。 当 作为 物理 设计 生成 很 多 小 表 ， 
而 且 每 个 小 表 都 只 有 很 少 的 数据 时 ， 就 会 造成 这 种 性 能 急剧 下 降 的 现象 。 


王 | 
三 疏导 局 | 巨 | 
王 -| 








图 3-26 当 有 许多 表 时 ， 动 态 连接 需要 进行 大 量 的 IO 
一 个 较为 合理 的 方法 是 将 这 些 表 物理 合并 ， 使 得 LO 代价 最 小 化 ， 如 图 3-27 所 示 。 合 并 表 
以 后 ， 同 样 的 程序 跟 以 前 一 样 运行 ， 但 现在 只 需要 少 得 多 的 MO 去 完成 同样 的 工作 。 
















































































(一 | 一 | 
图 3-27 对 表 物 理 合并 后 ， 大 大 减少 1O 

随 之 而 来 的 问题 是 为 了 获得 最 大 好 处 ， 应 该 采用 一 种 什么 样 的 健全 策略 来 合并 这 些 表 呢 。 
要 回答 这 个 问题 ， 就 是 数据 库 物理 设计 人 员 需 要 做 的 事 。 

合并 表 只 是 一 种 能 够 节省 I/O 的 设计 技术 。 另 一 种 非常 有 用 的 技术 是 创建 数据 数组 。 在 图 
3-28 中 ， 数 据 是 规范 化 的 ， 这 样 的 一 个 数据 序列 的 每 组 值 都 存放 在 不 同 的 物理 位 置 。 检 索 每 
一 组 值 n，n+1，n+2，…， 需 要 一 次 物理 1/O 得 到 数据 。 如 果 数 据 存放 在 数组 的 -一 行 中 ， 那 么 
一 次 IO 就 足以 检索 到 ， 如 图 3-28 底 部 所 示 。 
当然， 创建 数据 数组 并 不 是 在 所 有 情况 下 都 是 有 意义 的 。 只 有 当 数 列 中 值 的 数量 稳定 、 
数据 是 按 顺 序 访 问 的 、 数 据 的 创建 与 修改 在 统计 上 是 以 非常 有 规律 的 方式 进行 等 条 件 都 满足 
时 ， 创 建 一 个 数组 才 是 有 意义 的 。 
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创建 数据 数组 以 提高 性 能 








[4 [| | 一 组 数据 分 散在 不 同 的 物理 块 


……[] 加 pq … 


数据 物理 组 织 成 一 个 数组 
图 3-28 在 适合 的 情况 下 ， 创 建 数据 数组 可 以 节省 大 量 资源 


有 趣 的 是 ， 在 数据 仓库 中 ， 由 于 数据 具有 基于 时 间 的 特性 ， 这 样 的 情况 是 有 规律 地 出 现 
的 。 数 据 仓库 中 的 数据 总 是 与 某 个 时 刻 相关 ， 而 且 时 间 部 分 以 很 有 规律 的 形式 出 现 。 在 数据 
仓库 中 ， 例 如 ， 每 月 创建 一 个 数组 ， 是 很 容易 而 且 是 很 自然 的 事情 。 

男 一 个 重要 的 与 数据 仓库 环境 特别 相关 的 物理 设计 技术 是 有 意 引 入 元 余数 据 。 图 3-29 给 
出 了 一 个 引入 元 余数 据 而 带 来 好 处 的 例子 。 在 图 3-29 的 上 部 ,描述 字 段 (desc) 是 规范 化 的 ， 
并 且 不 存在 元 余 。 这 样 ， 所 有 的 需要 查看 一 个 零件 描述 的 过 程 都 必须 访问 基本 零件 表 。 尽 管 
数据 的 插入 是 最 优 的 ， 但 访问 这 些 数据 的 开销 却 很 大 。 

选择 使 用 元 余 





图 3-29 描述 信息 是 元 余 的 ， 散 布 在 使 用 它 的 多 个 地 方 。 更 新 时 ， 许 多 地 方 都 要 改变 ， 但 是 更 新 很 少 
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在 图 3-29 的 下 部 ， 数 据 元 素 “描述 ”(desc) 被 有 意 存 放 在 可 能 要 用 到 它 的 许多 表 中 。 这 
样 做 使 数据 访问 的 效率 得 到 提高 ， 但 数据 的 更 新 却 不 是 最 优 的 。 然 而 ， 对 于 那些 广泛 使 用 的 
数据 ( 如 描述 信息 ) 和 稳定 的 数据 (也 如 描述 信息 )， 几 乎 不 需 担 心 更 新 间 题 。 尤 其 是 在 数据 
仓库 环境 中 不 用 考虑 更 新 。 

另 一 个 有 用 的 技术 是 : 当 访 问 率 相差 悬殊 时 ， 对 数据 做 进一步 的 分 离 。 图 3-30 给 出 了 这 
样 的 一 个 例子 。 

如 图 3-30， 考 虑 一 个 银行 账户 ， 账 户 地 址 、 开 户 日 期 和 余额 都 是 规范 化 的 。 但 是 ， 余 额 与 
其 他 两 项 数据 的 访问 概率 差别 很 大 。 余 额 经 常用 到 ， 而 其 他 数据 则 很 少 用 到 。 为 了 使 TO 效率 高 
一 些 ， 并 且 使 数据 存放 得 更 紧凑 一 些 ， 可 以 将 规范 化 的 表 分 成 两 个 独立 的 表 ， 如 图 3-30 所 示 。 


低 访问 概率 


非常 高 的 访问 概率 





图 3-30 根据 访问 概率 的 巨大 差异 对 数据 进一步 分 离 


有 时 ， 在 物理 数据 库 的 设计 中 引入 导出 〈 即 已 计算 出 的 ) 数据 可 以 减少 所 需 WO。 图 3-31 
给 出 了 这 样 的 一 个 例子 。 一 个 程序 为 了 计算 出 年 薪 和 已 付 的 税金 ， 要 定期 访问 工资 清单 。 如 果 
该 程序 定期 在 每 年 年 底 运 行 一 次 ， 那 么 生成 一 个 字段 来 存储 计算 出 的 数据 就 很 有 意义 了 。 这些 
数据 只 要 计算 一 次 ， 将 来 需要 时 只 要 访问 那个 经 计算 的 字段 。 这 个 方法 的 另 一 个 优点 在 于 那个 
字段 的 数据 只 计算 一 次 而 不 必 重 复 计 算 ， 减 少 了 用 错误 的 算法 进行 不 正确 求 值 的 可 能 。 


引入 导出 数据 








税金 税金 
联邦 社会 | 联邦 社会 | 联邦 社会 
保险 保 隐 保险 


用 


保险 
其 他 
/二 一 一 年 薪 ， 年 税金 ， 年 联 


ED 






年 税金 ， 
年 联邦 社会 保险 ， 
其 他 
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建造 数据 仓库 的 最 具 创 新 性 的 技术 之 一 是 建立 所 谓 的 创造 性 索引 或 创造 性 概要 文件 ， 图 
3-32 给 出 了 一 个 创造 性 索引 的 例子 。 创 造 性 索引 是 当 数据 由 操作 型 环境 转移 到 数据 仓库 环境 
时 建立 起 来 的 。 由 于 在 任何 情况 下 都 要 对 每 个 数据 单元 进行 处 理 ， 所 以 ， 就 这 一 点 来 说 ， 计 
算 或 建立 索引 只 需要 很 少 的 开销 。 


创造 性 索引 /概要 文件 


12 加 
Jdo 本 一品 
Q 


轻 度 综合 数据 


现 有 系统 





[下 “OR 
创造 性 案 引 ; . 
和 朗 交 从 真实 档案 


图 3-32 创造 性 索引 的 例子 


创造 性 索引 为 最 终 用 户 感 兴趣 的 项 目 建立 一 个 概要 文件 描述 ， 比 如 最 大 的 购买 额 ， 最 不 
活跃 的 账户 ， 最 近 发 出 的 货物 ， 等 等 。 如 果 在 将 数据 传 到 数据 仓库 的 时 候 ， 对 于 管理 活动 有 
价值 的 需求 能 够 预见 得 到 (不 得 不 承认 ， 这 在 很 多 情况 下 是 不 能 的 )， 那 么 建立 创造 性 索引 就 
很 有 意义 了 。 

数据 仓库 设计 者 要 明确 的 最 后 一 个 设计 技术 就 是 参照 完整 性 的 管理 。 如 图 3-33 所 示 ， 在 
数据 仓库 环境 中 ， 参 照 完 整 性 以 “人 工 关系 ”的 方式 出 现 。 

在 操作 型 环境 中 ， 参 照 完整 性 表现 为 数据 表 之 间 的 动态 连接 。 由 于 在 数据 仓库 环境 中 的 
数据 量 很 大 、 数 据 仓 库 是 不 更 新 的 、 仓 库 按照 时 间 描 述 数 据 、 关 系 不 是 静态 的 ， 因 此 ， 应 采 
取 不 同 的 方法 表示 参照 完整 性 。 换 名 话说 ， 数 据 的 关系 在 数据 仓库 环境 中 采用 人 工 关系 表示 。 
这 意味 着 有 些 数据 要 复制 ， 有 些 要 删除 ， 而 其 他 数据 仍然 保留 在 数据 仓库 中 。 总 之 ， 试 图 在 
数据 仓库 环境 中 复制 参照 完整 性 显然 是 一 种 不 正确 的 方法 。 


数据 仓库 中 的 快照 


数据 仓库 是 应 各 种 各 样 的 应 用 和 用 户 而 建造 的 ， 如 顾客 系统 、 市 场 系统 、 销 售 系统 和 质 
量 控制 系统 。 尽 管 数据 仓库 有 如 此 不 同 的 应 用 和 类 型 ， 但 还 是 有 一 条 共同 的 线索 贯穿 其 中 ， 
那 就 是 每 个 数据 仓库 在 内 部 都 以 一 种 称 为 快照 的 数据 结构 为 中 心 来 组 织 。 图 3-34 说 明了 数据 
仓库 快照 的 基本 组 成 。 

快照 是 因为 一 些 事件 的 发 生 而 生成 的 。 有 一 些 能 够 触发 快照 的 事件 。 一 类 事件 是 对 离散 
活动 信息 的 记录 ， 例 如 填写 支票 、 打 电话 、 收 到 货物 、 完 成 订单 、 购 买 保险 等 。 在 离散 活动 
的 情况 中 ， 一 般 是 出 现 了 一 些 业务 活动 ， 需 要 记录 下 来 。 总 之 ， 离 散 活动 十 随机 发 生 的 。 
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数据 仓库 与 参照 完整 性 





在 操作 型 系统 中 ， 数 据 库 间 的 关系 由 参照 完整 性 处 理 


但 是 ， 在 数据 仓库 环境 中 : 
“有 比 操作 型 环境 要 多 得 多 的 数据 。 
“数据 一 旦 进入 数据 仓库 ， 就 不 再 改变 。 


* 需要 随 着 时 间 的 推移 表示 多 种 商业 规则 的 能 力 。 
“数据 仓库 中 的 数据 清理 并 非 完全 协调 的 。 
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图 3-33 数据 仓库 环境 中 的 参照 完整 性 





关键 字 非 关 键 字 的 二 级 数据 
主要 数据 
图 3-34 数据 仓库 中 的 数据 记录 是 某 一 时 刻 生 成 的 快照 ， 包 含 多 种 类 型 的 数据 
男 一 类 快照 触发 器 是 时 间 ， 这 是 一 种 可 预期 的 触发 器 ， 如 一 天 的 结束 、 一 千 的 结束 或 一 
个 月 的 结束 。 
由 事件 触发 的 快照 有 四 个 基本 组 成 部 分 : 
。 关 键 字 。 
ee 
只 与 关键 字 相 关 的 主要 数据 。 
ey 一 部 分 而 被 捕获 但 与 主要 数据 和 关键 字 都 无 直接 关系 的 二 级 数据 。 
注意 在 这 些 部 分 中 ， 只 有 二 i 
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关键 字 可 以 惟一 也 可 以 不 惟一 。 关 键 字 可 以 是 单一 的 数据 元 素 。 然 而 ， 在 典型 的 数据 仓库 
中 ， 关 键 字 是 由 识别 主要 数据 的 很 多 数据 元 素 组 成 的 合成 物 。 用 关键 字 识 别 记录 和 主要 数据 。 

时 间 单 元 ， 例 如 年 、 月 、 日 、 小 时 和 十 五 分 钟 ， 通 常 是 (但 并 不 总 是 ) 指 快照 所 描述 事 
件 发 生 的 时 刻 。 有 了 时， 时 间 单 元 指 的 是 捕获 数据 的 时 刻 。( 在 有 些 情况 下 ， 会 对 事件 发 生 的 时 
刻 和 捕获 事件 信息 的 时 刻 加 以 区 别 ， 而 在 其 他 情况 下 不 进行 区 别 . ) 在 由 时 间 推 移 触发 事件 的 
情况 下 ， 时 间 元 素 可 以 暗含 于 而 不 是 直接 附 于 快照 中 。 

主要 数据 是 与 记录 的 关键 字 直 接 相 关 的 非 关键 字数 据 。 例 如 ， 假 设 关键 字 标 识 产品 的 销 
售 ， 时 间 元 素描 述 的 是 销售 活动 终结 的 时 刻 ， 主 要 数据 描述 的 是 销售 什么 产品 ， 以 及 销售 的 
价格 、 条 件 、 地 点 和 代理 等 。 

二 级 数据 (如 果 存 在 ) 表示 快照 记录 创建 时 捕获 的 外 来 信息 。 如 与 销售 相关 的 二 级 数据 
是 关于 被 售 产品 的 一 些 附带 信息 (如 销售 时 当前 库存 是 多 少 )， 其 他 二 级 信息 可 以 是 销售 时 银 
行 对 优惠 顾客 的 主要 利率 。 将 来 可 能 会 在 DSS 处 理 过 程 中 使 用 到 的 任何 附带 信息 都 可 以 加 入 
到 数据 仓库 记录 中 去 。 注 意 ， 这 些 加 到 快照 中 的 附带 信息 可 以 是 
也 可 以 不 是 外 键 。 外 键 是 一 个 表 中 引用 另外 一 个 与 此 表 有 业务 关 A 
系 的 表 中 关键 字 值 的 属性 。 er 

二 级 信息 一 旦 加 入 到 快照 中 ， 就 可 以 推导 出 主要 信息 和 二 级 主要 数据 
信息 之 间 的 关系 ， 如 图 3-35 所 示 。 这 个 快照 表示 在 二 级 数据 和 主 ”图 3-35 与 主要 数据 一 起 驻 留 
要 数据 之 间 存 在 某 种 关系 。 除 此 之 外 ， 就 再 也 不 能 说 明 别 的 什么 。 ”在 同一 快照 中 的 二 级 数据 
了 。 这 种 关系 是 快照 的 即时 反映 。 不 过 ， 产 生 快 照 时 ， 从 快照 记 。 ”所 暗含 的 关系 正 是 我 们 
录 中 主要 数据 和 二 级 数据 的 并 列 ， 就 能 推出 数据 之 间 的 关系 。 有 可 以 捕获 的 人 工 关系 
时 ， 这 种 导出 的 关系 叫做 “人 工 关系 ”。 快 照 记 录 是 数据 仓库 中 最 为 一 般 和 最 常见 的 一 种 记录 。 


3.6 元 数据 


元 数据 是 数据 仓库 环境 的 一 个 重要 组 成 部 分 。 元 数据 就 是 关于 数据 的 数据 。 自 从 有 了 程 
序 和 数据 ， 元 数据 就 是 信息 处 理 环境 的 一 部 分 。 但 是 在 数据 仓库 中 ， 元 数据 扮演 一 个 新 的 重 
要 角色 。 正 因为 有 了 元 数据 ， 数 据 仓库 被 最 有 效 地 利用 。 元 数据 使 最 终 用 户 或 DSS 分 析 员 能 
够 探索 各 种 可 能 性 。 换 一 种 说 法 ， 如 果 一 个 数据 仓库 中 没有 元 数据 ， 那 么 用 户 就 不 知道 如 何 
着 手 进行 分 析 。 用 户 必 须 首先 对 数据 仓库 进行 各 种 试探 ， 才 能 确认 其 中 有 哪些 数据 和 没有 哪 
些 数据 ， 这 样 就 浪费 了 大 量 时 间 。 并 且 ， 即 使 用 户 对 数据 仓库 进行 了 一 些 试探 ， 仍 然 不 能 保 
证 能 找到 正确 的 数据 ， 也 不 能 保证 对 所 见 到 的 数据 正确 地 做 出 解释 。 如 果 有 元 数据 的 话 ， 最 
终 用 户 就 可 以 很 快 找到 所 需 数据 或 确认 这 些 数据 没 在 数据 仓库 中 。 

元 数据 与 指向 数据 仓库 内 容 的 索引 相似 ， 处 于 数据 仓库 的 上 层 ， 并 且 记录 数据 仓库 中 对 
象 的 位 置 。 一 般 ， 元 数据 存储 对 以 下 各 项 进行 了 记录 : 

“程序 员 所 知 的 数据 结构 。 

。DSS 分 析 员 所 知 的 数据 结构 。 

。 数据 仓库 的 源 数据 。 

“数据 进入 数据 仓库 时 进行 的 转换 。 

“数据 模型 。 

。 数据 模型 和 数据 仓库 的 关系 。 

。 抽 取 数 据 的 历史 记录 。 
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数据 仓库 中 的 参照 表 管理 


大 多 数 人 一 提 到 数据 仓库 技术 ， 就 会 想到 用 来 不 停 地 运行 公司 日 常事 务 (例如 顾客 档案 ， 
销售 记录 ， 等 等 ) 的 一 般 大 型 数据 库 。 当 然 ， 这 些 一 般 文件 构成 了 数据 仓库 工作 的 支柱 。 然 
而 ， 数 据 仓库 中 还 有 一 类 常 被 忽略 的 数据 : 参照 数据 。 

人 们 常常 以 想当然 的 态度 对 待 参照 表 ， 这 就 引发 了 一 个 特殊 的 问题 。 例 如 ， 假 设 1995 年 
某 公司 有 一 些 参照 表 ， 并 开始 建立 数据 仓库 。 随 着 时 间 的 推移 ， 大 量 数 据 装载 到 数据 仓库 。 
同时 ， 操 作 环境 中 仍然 使 用 这 些 参 照 表 ， 有 时 候 还 会 对 它们 进行 修改 。 在 1999 年 ， 公 司 需要 
将 数据 仓库 与 参照 表 进 行 比较 。 也 就 是 要 将 1995 年 的 数据 与 参照 表 做 一 次 比较 。 但 参照 表 并 
没有 保持 历史 准确 性 ，1995 年 数据 仓库 数据 与 1999 年 准确 的 参照 条 目 相 比较 只 能 是 得 到 错误 
的 结果 。 因 为 这 个 原因 ， 参 照 数据 应 该 同 数据 仓库 的 其 他 部 分 一 样 加 入 时 间 元 素 以 反映 它们 
的 时 变 特征 。 

因为 使 用 参照 数据 可 以 显著 地 减少 数据 仓库 中 的 数据 量 ， 所 以 参照 数据 特别 适合 用 于 数 
据 仓 库 环境 。 数 据 仓库 环境 中 有 很 多 管理 参照 数据 的 设计 技术 。 这 里 讨论 两 个 ， 这 两 个 技术 
恰恰 处 于 这 些 技术 的 两 个 对 立 端 。 另 外 ， 这 些 可 选 的 技术 还 有 很 多 变种 。 

图 3-36 给 出 的 是 第 一 种 设计 方法 ， 每 隔 6 个 月 对 整个 的 参照 表 生成 一 个 快照 。 这 个 方法 非 
常 简单 ， 并 且 乍 看 也 很 有 效 ， 但 这 种 方法 在 逻辑 上 是 不 完备 的 。 例 如 ， 假 设 在 3 月 15 日 发 生 了 
对 参照 表 的 某 一 活动 ， 可 能 是 加 入 了 一 个 新 的 条 目 ddw ， 然 后 5 月 10 日 该 条 目 被 删除 。 显 然 每 
隔 6 个 月 生成 一 个 快照 就 无 法 捕获 3 月 15 日 到 5 月 10 日 发 生 的 活动 。 





1 月 1 日 7 月 1 日 1 月 1 日 
AAA 一 Amber Auto AAA ~ Amber Auto AAA — Alaska Alt 
AAT— Allison’s AAR — Ark Electric AAG - German Air 
AAZ — AutoZone BAE - Brit Eng AAR - Ark Electric 
BAE — Brit Eng BAG - Bill’s Garage BAE -Brit Eng 








图 3-36 数据 仓库 中 管理 参照 表 的 一 种 方法 一 一 每 隔 六 个 月 生成 一 个 完整 的 参照 表 的 快照 


对 参照 表 的 第 二 种 管理 方法 如 图 3-37 所 示 。 如 图 所 示 ， 在 某 一 时 间 起 点 上 ， 对 参照 表 生 
成 一 个 快照 。 并 且 收 集 一 年 中 所 有 对 参照 表 的 活动 。 为 了 确定 某 一 时 刻 参 照 表 某 个 给 定 条 目 
的 状态 ， 该 活动 将 按 参 照 表 进 行 重建 。 在 这 种 方法 中 ， 表 在 任何 时 刻 的 逻辑 完备 性 都 可 以 重 
新 建立 起 来 。 然 而 ， 这 种 重建 不 是 一 件 简单 的 事情 ， 可 能 是 一 个 繁重 而 且 复 杂 的 任务 。 











1 月 1 日 1 月 1 日 : 增加 TWQ -Taiwan Dairy 
AAA ~ Amber Auto 1 月 16 日 : 删除 ATT 
AAT ~ Allison's 2 月 3 日 : 增加 AAG - German Power 
AAZ - AutoZone 2 月 27 日 : 修改 GYY - German Govt 
BAE ~ Brit Eng 
年 初生 成 参照 表 的 一 个 完 全 年 中 对 参照 表 的 修改 都 被 收集 起 来 ， 并 
整 快要 可 对 一 年 中 的 任意 时 刻 重 建 参 照 表 


图 3-37 另 一 种 管理 参照 表 的 方法 
这 里 概要 给 出 的 两 种 方法 在 意图 上 是 相反 的 。 第 一 种 方法 较 简单 ， 但 是 在 逻辑 上 不 完备 。 





训 奢 闪 据 仓 摩 





第 二 种 方法 很 复杂 ， 
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但 是 却 有 逻辑 上 的 完备 性 。 在 我 们 所 讨论 的 这 两 种 极端 之 间 有 很 多 可 供 


选择 的 设计 方案 。 无 论 这 些 方案 是 怎样 设计 和 实施 的 ， 都 需要 将 参照 表 作 为 数据 仓库 环境 的 


一 个 常规 部 分 进行 管理 。 


3.7 数据 周期 一 一 时 间 间 隔 


数据 仓库 设计 中 引 人 注 目的 问题 之 一 就 是 数据 周期 。 所 谓 数据 周期 是 指 从 操作 型 环境 中 
的 数据 发 生 改 变 起 ， 到 这 个 变化 反映 到 数据 仓库 中 所 用 的 时 间 。 考 虑 如 图 3-38 中 所 示 的 数据 。 


数据 仓库 


_ 


操作 型 


JJones 
Main 大 街 123 号 
信用 度 一 一 AA 
JJones 已 经 机 家 到 得 
克 萨 斯 州 奥斯汀 4 号 路 | 











JJones 
1989~1990 

Apt B 

信用 度 一 一 B 











J Jones 
1990~1991 E 
Apt B : 
信用 度 一 一 AA 











JTJones 
1992~ 今 
Main 大 街 123 号 bh 
信用 度 一 一 AA 





图 3-38 当 公 司 发 现 ] Jones 已 经 搬 了 家 会 怎样 ? 
图 中 给 出 了 关于 Judy Jones 的 当前 信息 ， 数 据 仓库 包含 有 Judy 的 历史 信息 。 假 设 Judy 改 变 


了 她 的 地 址 。 图 3-39 表 明 这 个 变化 一 被 发 现 ， 
马上 被 反映 到 操作 型 环境 中 。 

一 旦 数据 反映 到 操作 型 环境 中 ， 这 个 变 
化 必须 被 转 入 数据 仓库 中 。 图 3-40 表 示 数 据 
仓库 对 最 新 记录 的 终结 日 期 进行 了 更 正 ， 并 
且 持 入 了 一 条 反映 这 个 变化 的 新 记录 。 

问题 是 这 种 对 数据 仓库 数据 的 调整 有 多 
快 ? 通常 ， 从 操作 型 环境 感知 数据 的 改变 到 
这 个 变化 反映 到 数据 仓库 中 应 该 至 少 经 历 24 
小 时 《 见 图 3-41)。 没 有 必要 急于 把 这 个 变化 
转 人 数据 仓库 中 去 。 有 几 个 原因 可 以 解释 为 
什么 需要 采用 这 种 “时 间 间 隔 ”。 

首先 ， 操 作 型 环境 与 数据 仓库 相互 之 间 


操作 型 


加 





得 克 萨 斯 州 奥斯汀 4 号 路 





了 Jones 已 经 搬家 到 得 
克 萨 斯 州 奥斯汀 4 号 路 


图 3-39 第 一 步 是 修改 J Jones 在 操作 型 环境 中 的 地 址 


结合 得 越 紧密 ， 那 么 所 需 技术 也 就 越 昂贵 越 复杂 。24 小 时 的 时 间 间 隔 以 现 有 技术 来 说 将 很 容 
易 实 现 。12 小 时 的 时 间 间 隔 当 然 也 可 以 实现 ， 但 是 为 这 样 的 技术 需要 付出 更 多 的 投资 。6 个 小 
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时 的 时 间 间 隔 的 实现 也 不 会 是 问题 ， 但 所 需 技 术 的 投资 也 将 大 大 增加 。 
数据 仓库 












J Jones 
1989~1990 
Apt B 
信用 度 一 一 B 





J Jones 

1990~1991 

Apt B 

信用 度 一 一 AA 上 








1993 修 改 终止 日 期 


J Jones 

1992~ 今 
Main 大 街 123 号 
信用 度 一 一 AA 











图 3-40 改变 地 址 引起 的 在 数据 仓库 中 出 现 的 活动 


操作 型 数据 仓库 
< 


24 小 时 延迟 


改变 改变 


图 3-41 从 发 现 操作 型 环境 中 的 改变 到 这 个 改变 在 数据 仓库 中 
得 以 体现 需要 经 过 至 少 24 小 时 延迟 “时 间 间 隔 ” 


一 个 更 有 说 服 力 的 原因 是 ， 时 间 间 隔 给 环境 附加 了 一 个 特殊 的 限制 。 间 隔 24 小 时 ， 不 必 
在 数据 仓库 中 做 操作 型 处 理 ; 也 不 必 在 操作 型 环境 中 做 数据 仓库 处 理 。 如 果 将 时 间 间 隔 减少 
(如 减少 到 4 小 时 ) 就 可 能 不 得 不 在 数据 仓库 中 做 操作 型 处 理 ， 也 不 得 不 在 操作 型 环境 中 做 数 
据 仓 库 处 理 ， 这 显然 是 一 个 错误 。 

时 间 间 隔 的 另 一 个 好 处 是 在 转 入 数据 仓库 之 前 ， 数 据 能 达到 稳定 。 数 据 在 进入 数据 仓库 
之 前 ， 仍 然 可 以 在 操作 型 环境 中 进行 调整 。 而 如 果 数 据 被 马上 送 到 数据 仓库 中 ， 一 旦 发 现 必 
须 对 这 些 数 据 进行 调整 ， 那 么 调整 就 必须 同时 在 操作 型 环境 和 数据 仓库 环境 中 进行 。 


3.8 转换 各 集成 的 复杂 性 
粗 看 起 来 ， 当 数据 从 传统 环境 转 入 数据 仓库 时 ， 除 了 简单 地 从 一 个 地 方 抽取 数据 再 放 入 另 
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.一 处 ， 再 没有 做 别 的 什么 。 由 于 表面 上 看 起 来 很 简单 ， 很 多 企业 开始 以 手工 方式 建立 他 们 的 
数据 仓库 。 程 序 员 看 到 数据 从 旧 的 操作 型 环境 移动 到 新 的 数据 仓库 环境 中 ， 就 宣称 : “我 可 以 
做 到 ! ”于是 ， 有 了 手边 的 纸 笔 ， 在 数据 仓库 设计 、 开 发 伊始 ， 程 序 员 往往 就 着 手 编写 代码 。 
然而 ， 第 一 印象 通常 是 非常 靠不住 的 。 起 初 被 认为 仅仅 是 在 不 同 环境 间 的 简单 传送 数据 
的 任务 ， 很 快 就 变 得 巨大 而 复杂 一 一 比 程序 员 所 设想 的 要 大 得 多 复杂 得 多 。 
准确 地 说 ， 数 据 从 操作 型 环境 到 数据 仓库 环境 的 传递 要 完成 什么 功能 呢 ? 下 面 就 是 所 要 
完成 的 一 些 功能 : 
。 从 操作 型 环境 到 数据 仓库 环境 的 数据 抽取 需要 实现 技术 上 的 变化 。 一 般 包 括 ， 从 操作 型 
系统 获取 数据 的 数据 库 管 理 系统 (DBMS ) 技术 ， 如 IMS， 以 及 将 数据 写 入 更 新 的 数据 
仓库 的 DBMS 技 术 ， 如 DB2/UDB。 在 数据 传递 过 程 中 需要 实现 技术 的 变化 。 这 种 变化 不 
仅 指 一 种 DBMS 的 变化 ， 还 可 能 包含 源 于 操作 系统 的 变化 ， 硬 件 的 变化 ， 甚 至 源 于 基于 
硬件 的 数据 结构 的 变化 。 
。 从 操作 型 环境 中 选择 数据 是 非常 复杂 的 。 为 了 判定 是 否 要 对 一 个 记录 进行 抽取 处 理 ， 往 
往 需要 对 多 个 文件 中 其 他 记录 的 多 种 协调 查询 ， 需 要 进行 关键 字 读 取 ， 连 接 膛 辑 等 。 有 
时 候 ， 外 部 数据 只 能 从 在 线 环境 中 读 取 。 这 种 情况 下 ， 为 数据 仓库 进行 的 数据 抽取 必须 
在 在 线 操作 窗口 中 进行 ， 这 是 无 论 如 何 应 当 避免 的 。 
。 来 自 操作 型 环境 中 的 输入 关键 字 在 输出 到 数据 仓库 之 前 往往 需要 被 重建 和 转换 。 在 从 操 
作 型 环境 中 读 出 和 写 和 人 数据 仓库 系统 时 ， 输 入 关键 字 很 少 能 够 保持 不 变 。 简 单 情况 下 ， 
在 输出 关键 字 结构 中 加 入 时 间 成 分 。 复 杂 情况 下 ， 整 个 输入 关键 字 必 须 被 重新 散 列 或 者 
重建 。 
。 非 关键 字数 据 在 从 操作 型 环境 转移 到 数据 仓库 环境 时 要 重新 格式 化 。 举 一 个 简单 例子 ， 有 
关 日 期 的 输入 数据 格式 是 YYYY/MM/DD， 写 入 输出 文件 时 ， 需 要 转化 为 DDIMM/YYYY 
的 格式 。( 操 作 型 数据 进入 数据 仓库 之 前 的 格式 转换 往往 比 这 要 复杂 得 多 。) 
。 数据 在 从 操作 型 环境 转移 到 数据 仓库 环境 时 要 进行 清理 。 在 某 些 情况 下 ， 需 要 采用 一 个 
简单 的 算法 以 保证 输入 数据 的 正确 性 。 在 复杂 的 情况 下 ， 需 要 调用 一 些 人 工 智能 过 程 把 
输入 数据 清理 为 可 接受 的 输出 形式 。 数 据 清理 有 多 种 形式 : 取 值 范围 检查 、 交 又 记录 验 
证 以 及 简单 的 格式 检验 。 
。 因 为 存在 多 个 输入 数据 源 ， 当 其 中 的 数据 传人 数据 仓库 时 要 进行 合并 。 在 某 些 情况 下 数 
据 仓 库 中 数据 元 素 的 来 源 是 一 个 文件 ， 而 在 另外 一 些 情况 下 ， 则 是 另外 一 个 文件 。 罗 辑 
上 必须 分 清楚 ， 以 便 能 在 给 定 条 件 下 确定 正确 的 数据 源 。 
。 当 存在 多 个 输入 文件 时 ， 进 行文 件 合并 之 前 要 先进 行 关 键 字 解 析 。 这 意味 着 如 果 不 同 的 
输入 文件 使 用 不 同 的 关键 字 结构 ， 那 么 ， 完 成 文件 合并 的 程序 必须 提供 关键 字 解 析 功 能 . 
。 当 存在 多 个 输入 文件 时 ， 这 些 文件 的 顺序 可 能 不 相同 甚至 互 不 相 容 。 在 这 种 情况 下 这 些 
输入 文件 需要 进行 重新 排序 。 当 有 许多 记录 需要 进行 重新 排序 时 ， 输 入 文件 的 重新 排序 
就 可 能 有 些 困 难 ， 但 可 惜 的 是 ， 通 常 都 是 这 种 情况 。 
。 可 能 会 产生 多 个 输出 结果 。 同 一 个 数据 仓库 的 创建 程序 可 能 会 产生 不 同 综合 层次 的 结果 。 
。 需 要 提供 默认 值 。 有 时 候 ， 数 据 仓库 中 的 输出 值 没有 对 应 的 数据 源 。 这 时 ， 必 须 提供 默 
认 值 。 
。 为 抽取 过 程 选择 输入 的 数据 时 ， 其 效率 通常 是 一 个 问题 。 我 们 考虑 一 个 情况 ， 在 刷新 的 
时 候 ， 我 们 无 法 将 需要 抽取 的 操作 型 数据 和 不 需要 抽取 的 操作 型 数据 区 别 开 来 。 这 时 ， 
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必须 读 取 整个 文件 。 而 读 取 整个 文件 效率 很 低 ， 因 为 实际 上 只 需要 一 小 部 分 的 记录 。 这 
将 导致 在 线 环 境 一 直 处 于 伦 碌 状态 ， 进 而 挤 掉 了 其 他 的 处 理 活动 。 

* 经 常 需要 进行 数据 的 汇总 。 多 个 操作 型 输入 记录 合并 成 单个 的 “概要 ”数据 仓库 记录 。 
为 了 完成 汇总 ， 那 些 需要 汇总 的 详细 的 输入 记录 必须 进行 正确 排序 。 当 把 不 同类 型 的 记 
录 汇 总 为 一 个 数据 仓库 记录 时 ， 必 须 对 这 些 不 同 输入 记录 类 型 的 到 达 次 序 进 行 协调 ， 以 
便 产 生 一 个 单一 记录 。 

“在 数据 元 素 从 操作 型 环境 转移 到 数据 仓库 的 过 程 中 ， 应 该 对 数据 元 素 的 重 命名 操作 进行 
跟踪 。 当 一 个 数据 元 素 从 操作 型 环境 移动 到 数据 仓库 时 ， 往 往 会 改变 名 字 。 这 样 ， 就 必 
须 生 成 记录 这 些 变化 的 文档 。 

。 需 要 读 取 的 输入 记录 具有 异常 的 或 非 标准 的 格式 。 必 须 读 取 很 多 的 输入 类 型 ， 在 进入 数 
据 仓库 时 要 对 它们 进行 转换 : 

* 定 长 记录 

* 变 长 记录 

* 出 现 不 定 

* 出 现 子 句 

必须 进行 转换 。 但 是 必须 指定 转换 逻辑 ， 转 换 机 制 ( 转换 前 后 看 上 去 应 该 是 什么 样子 ) 

会 非常 复杂 。 有 时 转换 逻辑 变 得 非常 曲折 。 

。 也 许 最 糟糕 的 是 : 必须 理解 并 弄 清 楚 建 立 在 旧 的 传统 程序 逻辑 中 语义 层次 的 数据 关系 ， 
这 样 这 些 文件 才 可 以 用 来 作为 输入 。 而 这 些 语 义 关 系 常常 是 深奥 难 懂 的 ， 没 有 可 供 参 考 
的 文档 资料 。 但 是 当 数 据 转移 到 数据 仓库 中 时 ， 必 须 弄 清楚 这 些 关系 。 当 没有 文档 或 文 
档 已 过 时 时 ， 这 将 非常 困难 。 然 而 不 幸 的 是 ,在 许多 传统 操作 型 系统 中 ， 没 有 任何 文档 。 
这 正如 那 句 话 所 说 : “真正 的 程序 员 永 远 不 写 文档 。 

。 必须 进行 数据 格式 的 转换 。 必 须 进 行 EBCDIC 到 ASCII 的 转换 (或 反 过 来 )。 

* 必须 考虑 到 进行 大 容量 输入 的 问题 。 当 只 有 少量 的 输入 数据 时 ， 有 很 多 可 供 选 择 的 方案 。 
但 是 ， 当 有 大 量 的 记录 需要 输入 时 ， 就 必须 引入 一 些 特 殊 的 设计 方案 (如 并 行 装载 和 并 
行 读 出 )。 

“数据 仓库 的 设计 必须 符合 企业 数据 模型 。 这 样 ， 对 于 数据 仓库 的 设计 和 建立 就 会 有 一 定 
的 规则 和 限制 。 数 据 仓库 的 输入 数据 遵从 的 是 很 入 以 前 编写 的 应 用 程序 的 设计 说 明 书 。 
然而 ,从 最 初 编写 这 个 应 用 程序 到 现在 ,应 用 程序 依据 的 业务 条 件 或 许 已 经 改变 了 十 次 。 
针对 程序 代码 ， 也 做 过 许多 没有 编写 的 文档 的 维护 工作 。 另 外 ， 这 个 应 用 或 许 没有 与 其 
他 应 用 集成 的 需求 。 在 设计 和 建立 数据 仓库 的 时 候 必 须 考虑 到 所 有 的 这 些 脱节 之 处 。 

。 数据 仓库 反映 的 是 对 信息 的 历史 需求 ， 而 操作 型 环境 体现 对 当前 信息 的 即时 需求 。 这 意 
昧 着 当 数据 从 操作 型 环境 转移 到 数据 仓库 环境 时 可 能 需要 加 入 时 间 元 素 。 

* 数 据 仓库 着 眼 于 企业 的 信息 化 需求 ， 而 操作 型 环境 则 着 眼 于 精确 到 种 的 企业 日 常事 务 需求 。 

*。 必须 考虑 将 要 进入 数据 仓库 的 新 创建 的 输出 文件 的 传输 问题 。 在 有 些 情 况 下 ， 这 很 容易 
做 到 ; 在 另外 一 些 情况 下 ， 就 不 那么 容易 了 ， 尤 其 是 涉及 到 跨 操作 系统 的 时 候 。 另 一 个 
问题 是 将 进行 转换 的 位 置 问题 。 转 换 是 在 运行 操作 型 环境 的 机 器 上 进行 ? 还 是 将 数据 传 
送 到 数据 仓库 环境 中 ， 在 那里 进行 转换 ? 

还 有 更 多 需要 考虑 的 问题 。 以 上 列 出 的 仅仅 是 当 一 个 程序 员 着 手 装载 一 个 数据 仓库 时 所 

需 面 对 的 各 种 复杂 性 功能 的 一 部 分 。 
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在 数据 仓库 早期 发 展 过 程 中 ， 除 了 手工 建立 处 理 集成 的 程序 之 外 别 无 选择 。 程 序 员 使 用 
COBOL、C 和 其 他 语言 编写 这 些 程序 ， 人 们 很 快 发 现 这 些 程序 元 长 乏味 ， 并 且 有 大 量 重 复 。 
而 且 ， 对 这 些 程序 需要 不 断 维护 。 很 快 ， 出 现 了 将 操作 型 环境 数据 集成 过 程 自动 化 的 技术 ， 
也 就 是 抽取 /转换 /装载 (ETL) 软件 。 第 一 个 出 现 的 ETL 软 件 是 非常 粗糙 的 ， 但 很 快 它 就 成 熟 
起 来 ， 可 以 处 理 几 乎 所 有 转换 。 

ETL 软 件 划分 为 两 类 ， 产 生源 代码 的 软件 和 产生 参数 化 的 运行 时 模块 的 软件 。 产 生源 代 
码 的 软件 比 运行 时 软件 要 强大 ， 它 可 以 以 原 有 数据 的 格式 对 它们 进行 访问 ， 而 运行 时 软件 则 
需要 首先 对 原 有 数据 格式 进行 统一 。 统 一 之 后 ， 运 行 时 模块 就 可 以 访问 原 有 数据 。 不 幸 的 是 ， 
对 原 有 数据 格式 进行 统一 的 过 程 颇 费心 思 。 

在 任何 情况 下 ，ETL 软 件 都 可 以 使 转换 、 重 新 格式 化 、 从 多 个 传统 操作 型 数据 源 中 集成 
数据 的 过 程 自动 进行 。 只 有 在 非常 特殊 的 情况 下 ， 试 图 手工 建立 并 维护 操作 型 /数据 仓库 接口 
才 是 有 意义 的 。 

ETL 软 件 的 一 个 替代 品 是 ELT (extract/load/transform 抽 取 / 装 载 / 转 换 ) 软件 。ELT 软 件 的 
优点 是 在 转换 的 同时 可 以 引用 大 量 的 数据 。ELT 的 缺点 是 它 试 图 抽取 和 装载 数据 而 跳 过 转换 
过 程 。 当 转换 过 程 被 跳 过 的 时 候 ， 数 据 仓库 的 价值 就 显著 地 减少 了 。 


3.9 数据 仓库 记录 的 触发 


引起 数据 仓库 的 数据 载 和 的 基本 的 业务 交互 活动 可 以 称 为 “事件 -快照 ”交互 。 在 这 种 
交互 中 ， 某 个 事件 〈 一 般 是 在 操作 型 环境 中 ) 触发 了 数据 快照 ， 然 后 这 个 快照 转移 到 数据 仓 
库 环 境 中 。 图 3-42 象 征 性 地 图 示 了 一 个 “事件 -快照 ”交互 。 


快照 
上 


图 3-42 数据 仓库 中 的 每 个 快照 都 是 由 某 一 事件 触发 的 





3.9.1 事件 


如 本 章 前 面 所 述 ， 触 发 快照 的 业务 事件 可 能 是 一 个 重要 活动 的 发 生 ， 比 如 : 进行 一 次 销 
售 ， 一 次 货物 人 库 ， 通 一 次 电话 ， 或 者 发 送 一 次 货物 。 这 类 业务 事件 称 作 业务 活动 产生 的 事 
件 。 在 数据 仓库 中 ， 另 一 类 触发 快照 的 业务 事件 是 规律 性 的 时 间 推 移 标志 。 如 一 天 的 结束 ， 
一 个 星期 的 结束 ， 或 一 个 月 的 结束 。 这 类 业务 事件 称 作 时 间 产 生 的 事件 。 

业务 活动 引起 的 事件 是 随机 的 ， 而 时 间 推 移 所 触发 的 事件 则 不 是 随机 的 。 与 时 间 相 关 的 
快照 的 建立 是 有 规律 的 并 且 是 可 以 预知 的 。 


3.9.2 快照 的 构成 


如 本 章 前 面 所 述 ， 放 置 在 数据 仓库 中 的 快照 一 般 包 括 几 个 构成 部 件 。 一 个 是 标志 事件 发 
生 的 时 间 单 元 。 一 般 来 讲 (并 不 是 必然 的 )， 时 间 单 元 标记 快照 产生 的 时 间 。 另 一 个 部 件 是 用 
来 标识 快照 的 关键 字 。 数 据 仓库 快照 的 第 三 个 部 件 是 与 关键 字 相 关联 的 主要 、 非 关键 字数 据 。 
另外 一 个 可 选 部 件 ， 是 在 形成 快照 时 偶然 捕获 并 被 置 和 快照 中 的 三 级 数据 。 这 些 数 据 往往 称 
作 关 系 的 人 工 因素 。 
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在 数据 仓库 中 ， 最 简单 的 情况 下 ， 公 司 每 一 个 重要 的 运作 活动 都 将 触发 一 次 快照 。 在 这 
种 情况 下 ， 公 司 内 已 经 发 生 的 一 些 业 务 活 动 与 被 置 人 数据 仓库 的 快照 数目 之 间 是 - “对 应 的 。 
当 这 种 一 一 对 应 关系 存在 的 时 候 ， 数 据 仓库 就 能 追踪 与 某 一 主题 域 有 关 的 所 有 历史 活动 。 


3.9.3 一 些 例子 


每 当 发 生 操 作 型 业务 活动 时 ， 就 产生 一 个 快照 ， 这 样 的 例子 可 以 在 客户 文件 中 找到 。 每 
当 一 个 顾客 搬迁 、 更 改 电话 号 码 或 者 换 工 作 的 时 候 ， 数 据 仓 库 就 相应 改变 ， 一 个 连续 的 顾客 
历史 记录 就 写 入 数据 仓库 。 有 一 个 记录 跟踪 该 顾客 从 1989~1991 年 的 活动 。 另 一 个 记录 跟踪 他 
从 1991~1993 年 的 活动 。 还 有 一 个 记录 跟踪 这 个 顾客 从 1993 年 到 现在 的 活动 。 这 个 顾客 的 每 次 
活动 都 会 在 数据 仓库 中 产生 一 个 新 的 快照 。 

另 一 个 例子 ， 考 虑 一 下 保险 公司 的 保险 金 支付 业务 。 假 设 保 险 金 按 每 半年 支付 一 次 ， 那 
么 ， 每 隔 6 个 月 ， 就 会 在 数据 仓库 中 创建 一 个 快照 记录 ， 用 来 描述 保险 金 的 支付 情况 ， 包 括 支 
付 时 间 、 支 付 金额 等 。 

当 数 据 量 不 是 太 大 ， 数 据 稳定 〈 不 是 经 常 变化 ) ， 并 且 需 要 详细 历史 记录 时 ， 通 过 存储 已 
发 生 的 每 次 活动 的 详细 情况 ， 数 据 仓 库 可 以 跟踪 每 一 件 业 务 事件 。 然 而 ， 当 数据 经 常 变化 时 ， 
业务 状况 的 每 次 改变 无 法 都 详细 记录 到 数据 仓库 中 。 


3.10 概要 记录 


但 是 ， 在 很 多 情况 下 ， 数 据 仓 库 中 的 数据 并 不 满足 稳定 和 不 常 改变 的 标准 。 有 时 数据 量 
是 巨大 的 。 有 时 数据 的 内 容 经 常 发 生变 化 ， 而 且 ， 有 时 业务 上 并 不 要 求 特别 详细 的 历史 记录 。 
当 出 现 上 述 的 一 种 或 多 种 情况 时 ， 可 以 建立 另 一 种 不 同 的 数据 仓库 记录 。 这 种 记录 可 以 称 为 
聚集 记录 或 概要 记录 。 一 个 概要 记录 把 操作 型 数据 中 许多 不 同 的 、 详 细 的 记录 组 合 在 -~ 起 形 
成 一 条 记录 。 一 条 概要 记录 以 聚集 的 形式 代表 了 许多 条 操作 型 记录 。 

就 像 单个 活动 记录 那样 ， 概 要 记录 表示 数据 的 快照 。 二 者 之 间 的 区 别 是 : 数据 仓库 中 的 
单个 活动 记录 代表 了 单一 的 事件 ， 而 概要 记录 代表 的 则 是 多 个 事件 。 

如 同 单个 活动 记录 一 样 ， 概 要 记录 也 是 由 某 事件 所 触发 一 一 要 么 是 一 个 业务 活动 ， 要 人 么 
标记 规律 性 的 时 间 推 移 。 图 3-43 说 明 一 个 事件 触发 一 个 概要 记录 的 创建 。 

操作 型 环境 
顾客 数据 仓库 
顾客 /月 





聚集 每 月 的 通话 记录 以 提供 一 个 复合 的 代表 性 记录 
图 3-43 从 一 系列 详细 记录 创建 一 个 概要 记录 
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概要 记录 由 许多 详细 的 记录 育 集 创建 。 如 电话 公司 可 能 在 月 底 整 理 用 户 在 本 月 所 有 的 电 
话 业 务 ， 把 这 些 业 务 聚 集 在 数据 仓库 中 的 一 个 单一 的 用 户 记 录 中 。 这 样 ， 就 创建 了 一 个 代表 
性 记录 ， 该 记录 反映 了 该 用 户 在 一 个 月 之 内 的 所 有 电话 业务 。 再 如 ， 银 行 或 许 会 把 一 个 顾客 
全 月 的 活动 收集 起 来 ， 创 建 一 条 聚集 的 数据 仓库 记录 ， 这 条 记录 代表 了 顾客 这 个 月 内 的 所 有 
银行 活动 。 

将 操作 型 数据 聚集 形成 一 条 数据 仓库 记录 的 过 程 可 以 采取 多 种 形式 ， 如 : 

* 可 以 对 操作 数据 的 取 值 进行 汇总 。 

。 可 以 对 操作 数据 单元 进行 计数 ， 以 便 获 得 单元 的 总 数 。 

。 可 以 对 数据 单元 进行 处 理 ， 找 出 最 高 值 、 最 低 值 、 平 均值 等 。 

*。 可 以 捕获 第 一 个 和 最 后 一 个 数据 。 

“对 于 某 些 类 型 的 数据 ， 可 以 量度 出 处 于 给 定 的 几 个 参数 界限 之 内 的 数据 。 

* 吕 以 捕获 在 一 段 时 间 内 菜 一 时 刻 有 效 的 数据 。 

“ 可 以 捕获 最 老 的 数据 和 最 新 的 数据 。 

将 操作 型 数据 代表 性 地 聚集 成 概要 记录 的 方式 是 没有 限制 的 。 

建立 概要 记录 有 另 一 个 非常 吸引 人 的 好 处 ， 就 是 为 最 终 用 户 的 访问 和 分 析 提 供 了 一 种 紧 
凄 的 、 方 便 的 数据 组 织 形式 。 如 果 组 织 得 好 ， 把 许多 记录 的 精华 聚集 为 一 个 记录 ， 最 终 用 户 
会 很 方便 ， 只 需 在 一 个 地 方 就 可 以 找到 所 需要 的 数据 。 通 过 在 数据 仓库 中 把 数据 预先 打包 为 
罕 集 记录 ， 数 据 体 系 结构 设计 人 员 把 用 户 从 大 量 的 劳动 和 繁重 的 处 理 中 解放 了 出 来 。 


3.11 管理 大 量 数据 


在 许多 情况 下 ， 数 据 仓 库 中 需要 进行 管理 的 数据 的 规模 是 一 个 重要 问题 。 建 立 概要 记录 
是 管理 数据 量 的 一 种 有 效 技术 。 在 把 操作 型 环境 中 的 详细 记录 转化 为 概要 记录 的 过 程 中 ， 数 
据 量 可 能 显著 降低 。 通 过 建立 概要 记录 可 能 (事实 上 通常 ) 使 数据 量 降低 2 ~ 3 个 数量 级 .由 
于 这 个 优点 ， 能 够 创建 概要 记录 是 每 一 个 数据 体系 结构 设计 人 员 都 应 该 具备 的 一 种 强 有 力 的 
技术 。 

然而 ， 采 用 这 种 方式 也 有 其 不 足 之 处 。 当 采用 概要 记录 方式 的 时 候 ， 必 须 清 楚 这 样 将 会 
使 数据 仓库 失去 一 些 能 力 或 功能 。 首 先 ， 只 要 进行 了 数据 聚集 ， 就 会 丢失 一 些 细节 数据 。 但 
有 时 ， 委 失 细 节 数 据 并 不 一 定 是 件 坏事 。 这 时 ， 设 计 者 必须 能 够 保证 ， 委 失 的 细节 对 于 利用 
该 数据 仓库 进行 决策 支持 的 分 析 人 员 来 讲 是 无 关 紧 要 的 。 数 据 体系 结构 设计 人 员 保 证 所 丢失 
的 细节 并 不 特别 重要 的 第 ~ 道 防线 (最 简单 有 效 的 ) 就 是 迭代 式 地 建立 概要 记录 。 这 样 ， 设 
计 人 员 在 做 出 修改 时 ,就 具有 一 定 的 灵活 性 。 

第 一 遍 的 概要 记录 内 容 设 计 为 第 二 遍 的 设计 提供 依据 ， 依 此 类 推 。 只 要 数据 仓库 循环 开 
发 过 程 中 每 -- 遍 走 得 很 小 很 快 ， 就 不 至 于 在 概要 记录 中 忽略 对 最 终 用 户 来 讲 是 重要 的 某 种 需 
求 。 但 是 ， 在 创建 概要 记录 时 ， 如 果 第 一 遍 循环 开发 的 规模 非常 大 ， 设 计 老 可 能 会 把 自己 带 
入 危险 的 境地 。 这 时 ， 由 于 数据 仓库 相当 大 ， 它 的 内 容 不 能 仔细 改动 ， 从 而 导致 以 后 将 丢失 
重要 细节 ， 设 计 人 员 将 使 自己 陷于 难堪 的 境地 。 

为 了 保证 重要 细节 在 概要 记录 的 创建 过 程 中 不 被 永久 地 丢失 ， 有 第 二 种 方法 (可 以 和 
第 一 种 共同 使 用 )， 就 是 在 建立 概要 记录 的 同时 建立 历史 细节 的 备用 层 ， 如 图 3-44 所 示 。 这 
种 备用 的 细节 并 不 会 经 常用 到 ， 它 存储 在 较 慢 的 、 便 宜 的 顺序 存储 器 上 ， 不 容易 访问 到 ， 
使 用 起 来 较为 麻烦 。 但 是 需要 的 话 ， 细 节 确 实 是 存在 ， 可 以 访问 的 。 当 管理 部 门 需要 某 种 
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程度 的 细节 数据 的 时 候 ， 不 管 如 何不 容易 ， 总 可 以 检索 到 这 些 数据 ， 尽 管 需要 花费 一 些 时 
间 和 人 金钱。 


7 标准 DSS 处 理 
操作 型 数据 





据 
人 
在 这 里 生成 报表 
的 情况 十 分 罕见 
图 3-44 传统 数据 仓库 体系 结构 的 一 种 可 选 形式 一 一 需要 所 有 细节 数据 都 可 以 


得 到 ， 并 且 正 常情 况 下 对 大 多 数 DSS 处 理 都 可 以 获得 高 性 能 


3.12 创建 多 个 概要 记录 


根据 相同 的 细节 可 以 创建 多 个 概要 记录 。 在 电话 公司 的 例子 中 ， 单 个 通话 记录 可 以 用 来 
创建 顾客 概要 记录 、 地 区 通信 量 概要 记录 、 线 路 分 析 概 要 记录 等 等 。 

概要 记录 可 以 放 入 数据 仓库 ， 操 作 型 数据 存储 区 ， 也 可 以 放 入 以 数据 仓库 为 数据 源 的 数 
据 集 市 。 当 概要 记录 放 在 数据 仓库 的 时 候 ， 它 是 通用 的 。 如 果 概 要 记录 放 在 数据 集 市 中 ， 则 
这 些 记录 应 该 是 为 使 用 这 个 数据 集 市 的 部 门 定制 的 。 当 概要 记录 放 在 操作 型 数据 存储 区 
(Operational Data Store, ODS ) ， 可 以 以 OLTP 的 方式 存 取 。 

将 操作 型 记录 聚集 成 一 条 概要 记录 的 过 程 通常 是 在 操作 型 服务 器 上 完成 的 。 这 是 因为 操 
作 型 服务 器 能 管理 大 量 的 数据 ， 而 且 在 任何 情况 下 ， 这 些 数 据 都 驻 留 于 服务 器 上 。 通 常 ， 创 
建 概要 记录 的 过 程 涉 及 数据 的 排序 和 合并 过 程 。 一 旦 建立 快照 的 过 程 变 得 十 分 复杂 宛 长 时 ， 
就 应 该 怀疑 是 否 有 必要 建立 快照 。 

为 概要 记录 记载 的 元 数据 记录 与 为 单一 活动 快照 而 记载 的 元 数据 记录 非常 类 似 。 不 同 的 
是 ,聚集 记录 的 过 程 成 为 一 条 重要 的 元 数据 。( 从 技术 上 讲 ， 关 于 吝 集 过 程 的 记录 是 “元 过 程 ” 
信息 ， 而 不 是 “元 数据 ”信息 。) 


3.13 从 数据 仓库 环境 到 操作 型 环境 


操作 型 环境 与 数据 仓库 环境 的 不 同 与 任何 两 个 环境 可 能 的 不 同 是 一 样 的 ， 从 内 容 、 技 术 、 
用 途 、 所 服务 的 群体 等 许多 方面 来 讲 都 是 不 同 的。 对 二 者 之 间 的 接口 有 详细 的 说 明 。 当 数据 
从 操作 型 环境 转移 到 数据 仓库 环境 时 ， 要 经 过 一 次 基本 的 转换 。 由 于 众多 原因 〈 业 务 处 理 的 
顺序 、 操 作 型 处 理 的 高 性 能 要 求 、 数 据 寿命 、 操 作 型 处 理 的 面向 应 用 特性 等 等 ) ， 数 据 从 操作 
型 环境 到 数据 仓库 环境 的 流动 是 自然 和 正常 的 。 从 操作 型 环境 到 数据 仓库 这 种 正常 数据 流动 
如 图 3-45 所 示 。 

有 时 会 有 这 样 的 问题 ， 从 数据 仓库 环境 到 操作 型 环境 可 以 传送 数据 吗 ? 换言之 ， 数 据 是 
否 可 以 反 向 传送 ?从 技术 角度 讲 ， 当 然 可 以 ， 这 种 数据 传送 在 技术 上 是 可 行 的 。 虽 然 这 种 反 
向 流动 并 不 是 常规 情况 ， 但 在 一 些 特殊 的 情况 下 ， 确 实 存在 这 种 数据 “回流 ”。 


如 矿 数据 合 订 77 


gd 


图 3-45 传统 应 用 和 数据 仓库 体系 结构 设计 环境 中 的 正常 数据 流动 
3.14 数据 仓库 数据 的 直接 操作 型 访问 


图 3-46 说 明了 最 简单 数据 回流 的 动态 过 程 ， 即 由 操作 型 环境 对 数据 仓库 环境 进行 直接 数 
据 访问 。 在 操作 型 环境 中 向 数据 仓库 中 的 数据 提出 了 访问 请 求 。 这 个 请 求 被 传送 到 数据 仓库 
环境 中 ， 然 后 找到 所 需要 的 数据 ， 接 着 再 传输 到 操作 型 环境 中 。 很 明显 ， 从 动态 过 程 的 角度 
来 看 ， 这 不 会 是 一 个 简单 的 传送 过 程 。 


传统 应 用 





图 3-46 从 传统 应 用 环境 对 数据 仓库 的 直接 查询 


在 由 操作 型 环境 直接 访问 数据 仓库 数据 的 过 程 中 ， 有 一 些 严格 的 、 不 能 妥协 的 限制 。 下 
面 列 出 了 这 样 的 一 些 限制 ; 

“从 响应 时 间 的 角度 来 讲 ， 这 个 请 求 必须 能 够 忍受 元 长 的 响应 时 间 。 它 可 能 在 经 过 24 个 小 

时 后 才 被 响应 ， 这 意味 着 请 求 数据 仓库 数据 的 操作 型 处 理 决 不 具有 在 线 特性 。 

“ 对 数据 的 请 求 必须 是 最 小 量 的 。 数 据 的 传输 是 以 字 节 计 的 ， 而 不 是 以 MB 或 GB 计 。 

“ 管理 数据 仓库 所 用 到 的 技术 必须 与 管理 操作 型 环境 所 用 到 的 技术 一 致 ， 如 容量 、 协 议 等 。 

“ 从 数据 仓库 取得 的 、 准 备 传输 到 操作 型 环境 的 数据 必须 不 做 (或 仅 需 做 最 小 量 的 ) 格式 化 。 

这 些 条 件 限 制 了 从 数据 仓库 到 操作 型 环境 的 大 量 的 数据 直接 传送 。 很 容易 明白 在 数据 的 
直接 访问 时 为 什么 仅仅 有 少量 的 数据 回流 。 


3.15 数据 仓库 数据 的 间接 访问 


由 于 严格 的 、 不 可 妥协 的 传输 条 件 ， 由 操作 型 环境 到 数据 仓库 数据 的 直接 访问 很 少 发 生 。 
但 是 ， 对 数据 仓库 数据 的 间接 访问 则 完全 是 另 一 回 事 。 事 实 上 ， 数据 仓库 的 一 个 最 为 高 效 的 使 
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用 方式 就 是 操作 型 环境 间接 访问 数据 仓库 的 数据 。 以 下 是 一 些 间接 访问 数据 仓库 数据 的 例子 。 
3.15.1 航空 公司 的 佣金 计算 系统 


一 个 有 效 的 间接 使 用 数据 仓库 数据 的 例子 是 航空 公司 。 例 如 ， 芳 虑 一 笔 航 空 公司 的 订 票 
交易 。 旅 行 社 代表 客户 与 航空 公司 机 票 预订 服务 人 员 交 水 。 这 个 客户 想 购 买 一 张 某 一 航班 的 
机 票 而 旅行 社 需要 知道 以 下 问题 : 

“还 有 座位 吗 ? 

“ 座位 票 价 是 多 少 ? 

“ 旅行社 能 获得 多 少 佣 金 ? 

如 果 航 空 公司 支付 太 多 的 佣金 ， 他 们 将 获得 旅行 社 的 这 笔 交 易 ， 但 是 会 损失 一 部 分 钱 。 
如 果 佣 金太 少 ， 这 家 航空 公司 可 能 会 失去 这 笔 交 易 ， 旅 行 社 将 会 终止 订 票 并 寻找 另外 一 家 支 
付 佣金 较 多 的 航空 公司 。 十 分 小 心地 计算 所 支付 的 佣金 涉及 到 航空 公司 的 最 佳 利 益 ， 因 为 计 
算 对 于 它 的 底线 有 直接 的 影响 。 

旅行 社 代理 和 航空 公司 职员 之 间 的 交互 必须 在 很 短 的 时 间 内 完成 ， 比 如 2~3 分 钟 之 内 。 在 
这 么 短 的 时 间 内 中 ， 航 空 公司 职员 必须 输入 并 完成 - -系列 事务 处 理 ， 如 : 

“是 否 有 负 余 座位 ? 

“座位 是 否 可 优先 使 用 ? 

“涉及 哪些 转 接 航班 ? 

“是 否 能 转 接 得 上 ? 

“ 票 价 是 多 少 ? 

“偿付 多 少 佣金 ? 

如 果 航 空 公司 职员 (他 要 在 与 旅行 社 代理 进行 交流 的 同时 运行 多 个 事务 ) 的 响应 时 间 太 
长 ， 那 么 航空 公司 将 会 因此 而 失去 交易 。 因 此 ， 航 空 公 司 的 最 大 利益 在 于 必须 尽量 缩短 与 旅 
行 社 代理 对 话 过 程 中 的 响应 时 间 。 

最 佳 佣金 的 计算 成 为 交互 中 至 关 重 要 的 部 分 。 最 佳 佣金 的 计算 需要 考虑 两 个 因素 : 航班 
当前 的 预订 情况 和 历史 情况 。 当 前 的 预定 情况 提供 了 目前 飞机 票 的 预订 情况 ， 而 历史 情况 则 
提供 了 过 去 一 段 时 间 的 订 票 情况 。 从 二 者 之 间 可 以 计算 出 一 个 最 佳 的 佣金 。 


当前 订 票 历史 订 票 


旅行 社 代理 人 
航空 公司 预订 票 职 
航班 状态 计算 


{全 
口 -一 


航班 日 期 
日 期 的 平均 订 票 
图 3-47 通过 读 取 历 史 数 据 周期 地 创建 航班 状态 文件 。 这 样 航空 公司 代理 能 快速 地 
获得 当前 订 票 情况 ， 并 与 历史 平均 订 票 情况 进行 比较 
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人 们 希望 通过 在 线 方式 完成 预订 和 航班 历史 情况 的 计算 ,但 是 所 需 处 理 的 数据 量 很 大 ， 
以 致 于 如 果 采 用 在 线 方式 ， 势 必 会 影响 到 响应 时 间 。 相 反 ， 在 有 足够 机 器 资源 的 地 方 ， 采 用 
离线 方式 完成 佣金 计算 和 航班 历史 分 析 更 为 合适 。 图 3-47 说 明了 采用 离线 式 佣金 计算 的 动态 
过 程 。 

离线 计算 和 分 析 周 期 性 进行 ， 并 创建 一 个 小 的 易于 访问 的 航班 状态 表 。 当 航空 公司 职员 
与 旅行 社 代理 交互 时 ， 很 容易 查阅 当前 订 票 情况 和 航班 状态 表 。 结 果 ， 二 者 之 间 的 对 话 进行 
得 很 迅速 也 很 顺利 ， 这 样 就 很 好 地 利用 了 数据 仓库 的 数据 。 


3.15.2 零售 个 性 化 系统 


在 操作 型 环境 中 ， 间 接 使 用 数据 仓库 数据 的 另 一 个 例子 是 零售 个 性 化 系统 。 在 这 样 的 系 
统 中 ， 顾 客 阅读 到 由 零售 商 编制 的 县 录 或 宣传 广告 后 ， 有 了 购买 的 念头 ， 或 者 至 少 想 查 询 一 
下 目录 ， 于 是 就 给 零售 商 打 电话 。 

这 种 对 话 可 能 持续 5~8 分 钟 . 这 段 时 间 内 零售 商 的 代表 需要 做 -- 系 列 的 事情 一 一 确定 顾客 ， 
记 下 所 需 的 订货 信息 等 。 响 应 时 间 必 须 短 ， 否 则 顾客 将 失去 兴趣 。 

当 顾客 订货 或 咨询 情况 时 ， 零 售 商 代表 查 出 其 他 一 些 与 此 有 关 的 信息 ， 如 : 

* 顾客 上 次 购物 的 时 间 。 

“ 上 次 购物 的 类 型 。 

“客户 所 属 的 市 场 类 别 。 

与 顾客 对 话 的 过 程 中 ， 销 售 代表 说 出 如 下 这 些 事情 : 

* “我 记得 我 们 曾 在 二 月 份 通过 话 。 

*。 “你 购买 的 赣 色 运动 衫 怎么 样 ?“ 

“。 “你 的 那 条 裤子 的 问题 解决 了 吗 ?“ 

一 句 话 ， 销 售 代 表 在 与 顾客 的 交谈 过 程 中 ， 必 须 针 对 顾客 的 不 同 特点 作 个 性 化 处 理 。 这 
样 ， 将 会 增强 顾客 的 购买 欲望 。 

另外， 销售 服务 人 员 应 该 拥有 市 场 类 别 信 息 ， 如 : 

。 男 / 女 

* 职业 /其 他 

“城市 /乡村 市 场 


“沙滩 

因为 对 话 可 以 进行 得 很 个 性 化 ， 而 且 有 可 用 的 顾客 所 属 的 市 场 类 别 信 息 。 因 此， 当 顾 客 
打 入 电话 时 ， 销 售 代表 能 够 进行 针对 性 的 提问 ， 如 : 

。“ 你 知道 我 们 还 有 一 款 未 公布 的 泳装 衣 吗 ?” 

。 “我 们 刚刚 进 了 一 批 意大利 太阳 镜 ， 我 想 你 可 能 有 兴趣 。” 

。“ 天 气 预报 员 预 测 将 有 一 个 适 于 打 野 鸭 的 寒冬 ， 我 们 有 一 种 特制 的 长 简 靴 。” 
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顾客 已 经 花 时 间 打 了 这 个 电话 ， 个 性 化 的 电话 服务 和 关于 顾客 对 什么 商品 感 兴趣 的 知识 
就 将 使 得 销售 商 在 不 增加 资本 投入 、 不 增加 广告 量 的 情况 下 增加 收入 。 这 种 个 性 化 的 电话 对 
话 正 是 通过 对 数据 仓库 的 间接 访问 而 完成 的 。 图 3-48 表 明 如 何 成 功 实现 这 种 个 性 化 服务 的 动 
态 过 程 。 


商品 目录 


顾客 





\ 市 场 分 析 程 序 


顾客 历史 文件 
顾客 ID 
“上 次 购 头 日 期 
“上 次 所 购物 品 
“产品 市 场 分 类 
图 3-48 电话 推销 员 只 要 稍 一 留意 马上 就 可 以 取得 顾客 历史 信息 


| 后 台 ( 即 数据 仓库 环境 中 ) 有 一 个 分 析 程 序 在 不 断 读 入 和 分 析 顾 客 的 记录 。 这 个 分 析 程 
序 通过 一 种 复杂 的 方法 扫描 、 分 析 顾 客 的 历史 记录 。 它 周期 性 地 提供 给 操作 型 环境 一 个 包括 
下 面 内 容 的 文件 : 

* 上 次 购物 的 日 期 。 

* 上 次 购物 的 类 型 。 

* 市 场 分 析 / 市 场 类 别 信息 。 

当 顾 客 打 入 电话 时 ， 这 个 文件 早 就 已 经 以 在 线 的 方式 为 零售 销售 代表 准备 好 了 ，。 


3.15.3 信用 审核 


再 一 个 由 操作 型 环境 间接 利用 数据 仓库 的 例子 是 在 银行 或 金融 领域 中 的 信用 审核 过 程 。 
它 用 来 确定 一 个 顾客 是 否 有 资格 获得 贷款 的 一 种 审核 过 程 。 例 如 ， 假 设 顾客 来 到 出 纳 窗口 要 
求 贷 款 。 出 纳 员 需要 用 户 的 一 些 基 本 信息 ， 然 后 决定 是 否 提供 贷款 。 这 种 交互 过 程 也 发 生 在 
一 个 很 短 的 时 间 内 ， 大 概 5~10 分 钟 。 

为 了 确定 是 否 应 该 提供 贷款 ， 需 要 进行 一 些 处 理 。 贷 款 请 求 首 先 经 过 一 个 简单 筛选 处 理 ， 
如 果 贷 款 金额 较 小 ， 而 且 贷 款 人 有 一 个 稳定 的 经 济 背景 ， 那 么 就 可 以 决定 给 他 提供 贷款 ， 而 
不 必 再 加 以 审核 。 然 而 ， 如 果 贷 款 金额 较 大 ， 或 者 贷款 人 没有 稳定 的 预知 的 经 济 来 源 ， 那 么 
就 需要 继续 审查 。 

后 台 审 核 程 序 依赖 于 数据 仓库 。 事 实 上 ， 这 种 审核 是 综合 的 ， 需 要 对 顾客 的 各 个 方面 进 





设 矿 数据 仓 府 87 








行 调查 ， 例 如 : 

。 偿 还 历史 。 

。 私 有 财产 。 

* 财务 管理 。 

。 净 值 。 

* 全 部 收入 。 

“全 部 开销 。 

。 其 他 的 无 形 资 产 。 

这 种 大 范围 的 背景 检查 过 程 需要 大 量 的 多 方面 的 历史 数据 。 这 部 分 贷款 审核 处 理 过 程 不 
是 花 几 分 钟 时 间 就 能 完成 的 。 

为 了 在 最 短 的 时 间 内 满足 尽 可 能 多 的 顾客 要 求 ， 需 要 编写 一 个 分 析 程 序 。 图 3-49 说 明 
了 这 个 分 析 程 序 是 如 何 与 信用 审核 过 程 中 其 他 部 件 协调 工作 的 。 分 析 程 序 定期 地 启动 运行 ， 
创建 一 个 在 操作 环境 下 使 用 的 预先 审核 文件 。 除 了 其 他 数据 之 外 ， 预 先 审核 文件 包括 如 下 
方面 : 

“客户 身份 信息 。 

“核准 的 信贷 限额 。 

。 特 殊 的 核准 限额 。 


“账户 历史 
* 偿还 历史 
* 工 作 历 史 
“薪酬 历史 
“资产 管理 历史 





预审 核 过 的 预审 核 / 预 
顾客 文件 分 析 程 序 


图 3-49 银行 出 纳 员 可 以 立即 使 用 预审 核 过 的 顾客 信用 文件 


这 样 ， 当 顾客 想 申请 获得 货款 时 ， 出 纳 员 利 用 高 性 能 的 在 线 方式 就 可 以 决定 给 予 ( 或 不 
给 予 ) 客户 贷款 。 仅 当 顾 客 贷款 金额 超过 预先 核准 的 限额 时 ， 才 需要 经 过 贷款 官员 的 进一步 
审核 。 


3.16 数据 仓库 数据 的 间接 使 用 


对 于 间接 利用 数据 仓库 来 讲 ， 还 有 一 种 正在 出 现 的 模式 ， 如 图 3-50 所 示 。 

由 一 个 程序 对 数据 仓库 进行 定期 的 分 析 ， 以 检验 相关 的 特征 和 标准 。 这 种 分 析 过 程 将 在 
在 线 环 境 中 产生 一 个 小 文件 ， 其 内 容 包括 了 有 关 企 业 业 务 方面 的 简明 信息 。 这 个 在 线 文件 能 
快速 有 效 地 使 用 ， 这 样 就 与 操作 型 环境 中 的 其 他 处 理 功能 的 风格 相 匹 配 起 来 了 。 





82 蓝 了 人 间 











在线 环境 





[min 
图 3-50 使 在 线 操作 型 环境 可 以 间接 地 使 用 数据 仓库 数据 的 方法 


下 面 是 间接 使 用 数据 仓库 数据 时 应 考虑 的 几 个 因素 : 

至 分析 程序 : 

。 拥 有 许多 人 工 知 能 的 特征 。 

。 可 以 运行 在 任何 可 用 的 数据 仓库 中 。 

。 在 后 台 运 行 ， 这 样 处 理 时 间 就 不 是 一 个 问题 (至 少 不 是 一 个 大 问题 )。 
。 程 序 的 运行 与 数据 仓库 发 生变 化 的 速度 一 致 。 

8 周期 性 刷新 : 

。 不 是 经 常 进行 。 

。 以 一 种 替代 模式 操作 。 

。 从 支持 数据 仓库 的 技术 传送 数据 到 支持 操作 型 环境 的 技术 。 
和 在线 预 分 析 数 据 文件 : 

。 每 个 数据 单元 仅仅 包括 少量 的 数据 。 

， 总 体 上 可 以 包含 大 量 的 数据 (因为 可 以 有 很 多 的 数据 单元 )。 
。 准确 地 包含 在 线 处 理 人 员 所 需要 的 东西 。 

。 不 被 修改 ， 但 是 以 批量 方式 周期 性 刷新 。 

* 是 在 线 高 性 能 环境 的 一 部 分 。 

* 访问 效率 高 。 

“。 适 于 访问 单个 数据 单元 ， 而 不 是 大 批量 数据 。 


3.17 星 形 连接 


数据 仓库 设计 绝对 是 一 个 适合 于 使 用 规范 或 关系 型 方法 的 领域 。 关 于 为 什么 规范 化 可 以 
产生 数据 仓库 的 最 优 设计 ， 有 儿 个 很 好 的 原因 : 

和 可 以 带 来 灵活 性 。 

里 很 好 地 适用 于 粒度 化 的 数据 。 

和 规范 化 方法 不 是 对 任何 给 定 的 处 理 需 求 集合 都 是 最 优 的 。 

里 能 很 好 地 与 数据 模型 相 匹 配 。 

当然 ， 如 果 整 个 机 构 都 用 同一 种 方式 观察 数据 ， 对 规范 化 模型 进行 一 些小 的 调整 也 是 可 
以 的 。 例 如 ， 如 果 保 存 了 每 月 数据 ， 当 机 构 需 要 观察 每 月 数据 时 ， 总 是 要 观察 所 有 的 月 度数 
据 ， 那 么 将 所 有 月 度数 据 存放 在 一 起 无 疑 是 很 有 意义 的 。 

在 数据 仓库 技术 中 经 常 提 到 的 一 种 不 同 于 数据 库 设 计 方法 是 多 维 方 法 。 这 种 方法 需要 星 
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形 连 接 、 事 实 表 和 维 。 多 维 方 法 只 适用 于 数据 集 市 ， 市 不 适合 数据 仓库 。 

数据 集 市 在 很 大 程度 上 是 根据 需求 来 形成 的 ， 这 与 数据 仓库 不 同 。 为 了 建立 一 个 数据 集 
市 ， 首 先 要 对 在 数据 集 市 上 进行 的 处 理 的 需求 有 很 多 了 解 。 一 旦 这 些 需 求 已 知 ， 可 以 将 数据 
集 市 建成 一 个 最 优 的 星 形 连接 结构 。 

但 数据 仓库 与 此 有 着 本 质 不 同 ， 这 是 因为 数据 仓库 是 为 一 个 非常 大 的 群体 服务 的 ， 正 因 
为 如 此 ， 数 据 仓 库 对 于 任何 一 个 需求 集合 而 言 ， 性 能 和 便捷 性 都 不 是 最 优 的 。 数 据 仓库 是 根 
据 企 业 信息 需求 而 非 部 门 信 息 需求 建立 的 。 因 此 ， 对 于 数据 仓库 建立 星 形 连接 将 是 一 个 错误 ， 
因为 最 终结 果 是 数据 仓库 在 牺牲 所 有 其 他 群体 利益 的 代价 中 对 一 个 群体 实现 了 最 优 。 

多 维 方法 对 于 数据 集 市 的 数据 库 设 计 的 吸引 力 起 始 于 数据 模型 。 所 有 使 用 数据 模型 作为 
设计 基础 的 实践 都 有 一 些 缺点 。 考 虑 如 图 3-51 所 示 的 简单 数据 模型 。 





图 3-51 简单 的 二 维 数据 模型 会 给 人 所 有 实体 都 平等 的 印象 


图 中 所 示 的 数据 模型 中 有 四 个 相互 关联 的 简单 实体 。 如 果 数 据 库 设计 只 需要 考虑 数据 模 
型 的 话 ， 可 以 推断 所 有 的 实体 都 是 平等 关系 。 换 言 之 ， 从 数据 模型 的 设计 角度 来 看 ， 所 有 的 
实体 之 闻 的 关系 是 对 等 的 。 仅 仅 从 数据 模型 的 角度 着 手 设计 数据 仓库 会 产生 一 种 “平面 ” 效 
应 。 实 际 上 ， 由 于 种 种 原因 ， 数 据 集 市 的 实体 绝 不 会 是 相互 对 等 的 。 一 些 实体 需要 有 自身 的 
专门 处 理 。 

为 了 明确 为 什么 从 数据 模型 的 角度 看 一 个 企业 中 的 数 
据 和 关系 会 发 生 失真 ， 考 虑 数据 仓库 中 数据 的 一 种 三 维 透 
视 (图 3-52)。 图 3-52 表 明了 这 种 三 维 透视 ， 代 表 销 售 商 、 
顾客 、 产 品 、 发 货 的 实体 稀疏 地 载 入 ， 而 代表 订单 的 实体 
则 大 量 地 载 入 。 将 会 有 大 量 的 数据 载 人 代表 订单 实体 的 表 
中 ， 而 在 代表 别 的 实体 的 表 中 载 入 的 数据 量 则 相对 较 少 。 

由 于 大 量 的 数据 要 载 入 订单 实体 ， 因 此 ， 需 要 设计 一 图 3-52 实体 的 三 维 透视 图 说 明 这 些 
种 不 同 的 处 理 方式 。 人 

用 来 管理 载 人 数据 集 市 中 某 个 实体 的 大 量 数据 的 设计 
结构 称 为 星 形 连接 。 图 3-53 给 出 数据 结构 中 星 形 连 接 的 一 个 简单 例子 。“ 订 单 ” 位 于 星 形 连 接 
的 中 央 ， 它 是 大 量 载 入 数据 的 实体 。 在 其 周围 分 别 是 “零件 ”"、“ 日 期 "、“ 供 应 商 ” 和 “发 货 ” 
实体 ， 这 些 实体 仅仅 会 载 和 人 适量 的 数据 。 星 形 连接 中 央 的 “订单 ” 称 作 “ 享 实 表 "， 而 其 周围 
的 其 他 实体 ( “零件 "、“ 日 期 ">、“ 供 应 商 ” 和 “发 货 " ) 则 称 为 “ 维 表 "。 事 实 表 包含 了 “订单 ” 
独 有 的 标识 数据 ， 也 包含 了 订单 本 身 的 独 有 数据 。 事 实 表 还 包含 了 指向 其 周围 的 表 ( 维 表 ) 
的 预先 连接 的 外 键 。 如 果 非 外 键 的 信息 经 常 被 事实 表 使 用 ， 那 么 星 形 连接 内 的 非 外 键 信 息 将 
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会 伴随 外 键 的 关系 一 起 存放 。 例 如 ， 如 果 “ 零 件 ” 的 描述 被 “订单 ”处 理 过 程 经 常用 到 的 话 ， 
那么 这 个 描述 将 会 与 零件 号 一 起 存储 在 事实 表 中 。 


销售 商 ID 
销售 商 数 据 
销售 商 数 据 


产品 ID 
非 关 键 字数 据 





图 3-53 一 个 简单 的 星 形 连接 。“ 订 单 ” 实 体裁 人 了 大 量 数据 ， 其 他 实体 与 这 些 数据 进行 了 预 连接 


可 以 有 任意 多 个 外 键 与 维 表 相 关 。 当 有 必要 将 事实 表 中 的 数据 与 外 键 数据 进行 匹配 
检查 时 ， 就 需要 创建 一 个 外 键 关 系 。 拥 有 多 达 20 至 30 个 维度 对 于 一 个 星 形 连 接 来 说 是 典 
型 的 。 

星 形 连 接 的 一 个 有 趣 的 方面 是 ， 在 很 多 情况 下 ， 文 本 数据 与 数值 数据 是 分 离开 的 。 考 虑 
图 3-54 所 示 的 情况 。 文 本 数据 常常 出 现在 维 表 中 ， 数 值 数 据 常 出 现在 事实 表 中 ， 这 种 划分 儿 
平 在 所 有 情况 都 会 发 生 。 








图 3-54 在 很 多 情况 下 ， 事 实 表 装 载 数字 型 数据 与 外 键 ， 而 维 表 则 装载 字符 型 数据 


创建 星 形 连 接 的 好 处 是 可 以 为 决策 支持 系统 的 处 理 优化 数据 。 通 过 预 连接 数据 和 建立 有 
选择 的 数据 完 余 ， 设 计 者 大 大 简化 和 调整 访问 和 分 析 的 数据 ， 这 正 是 数据 集 市 所 需要 的 。 应 
该 注意 ， 如 果 不 是 在 决策 支持 系统 数据 集 市 环境 中 使 用 星 形 连接 ， 则 会 有 很 多 的 缺点 。 在 决 
策 支持 系统 数据 集 市 环境 以 外 ， 常 有 数据 更 新 ， 而 且 数 据 关 系 的 管理 要 在 秒 一 级 上 进行 。 在 
这 种 情况 下 ， 对 于 创建 和 维护 操作 来 说 ， 星 形 连接 很 有 可 能 是 一 种 很 麻烦 的 数据 结构 。 但 是 ， 
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由 于 数据 集 市 是 一 个 装载 和 访问 环境 ， 它 包括 历史 数据 ， 且 有 大 量 的 数据 要 管理 ， 因 此 ， 星 
形 连接 的 数据 结构 对 于 数据 集 市 中 的 处 理 是 十 分 理想 的 。 

星 形 连接 有 了 作为 数据 集 市 设计 的 基础 的 恰当 的 位 置 。 图 3-55 示 出 了 数据 集 市 DSS 设计 中 
星 形 连接 和 数据 模型 是 怎样 配合 作为 基础 使 用 的 。 星 形 连接 作为 设计 基础 应 用 于 数据 集 市 中 
很 大 的 实体 ， 而 数据 模型 则 应 用 于 数据 仓库 中 较 小 的 实体 。 














图 3-55 传统 数据 模型 适用 于 维 表 ( 即 装载 数据 不 多 的 实体 )， 而 星 形 
连接 设计 方法 则 适用 于 事实 表 ( 即 大 量 装 载 数 据 的 实体 ) 


数据 仓库 与 数据 集 市 的 一 个 问题 是 数据 怎样 从 数据 仓库 到 达 数 据 集 市 。 数 据 仓 库 中 的 
数据 是 粒度 化 的 ， 数 据 集 市 中 的 数据 是 紧凑 和 综合 的 。 数 据 必 须 周 期 性 地 从 数据 仓库 移 到 
数据 集 市 。 数 据 从 数据 仓库 到 数据 集 市 的 这 种 转移 与 从 原 有 操作 型 环境 到 数据 仓库 的 转移 
相似 。 

必须 对 数据 仓库 中 的 数据 进行 选择 ， 访 问 ， 重 组 才能 适合 数据 集 市 的 需求 。 数 据 集 市 
数据 经 常 存储 于 立方 体 中 。 需 要 形成 这 些 立 方 体 ， 并 对 数据 仓库 中 存储 的 大 量 细节 数据 上 
进行 多 种 不 同 的 计算 。 简 单 来 说 ， 数 据 从 规范 化 世界 转移 到 多 维 世界 时 ， 要 经 历 一 个 非 平 
几 的 过 程 。 

这 里 的 一 个 重要 问题 是 要 访问 多 少数 据 和 刷新 过 程 应 该 以 什么 样 的 频率 进行 。 

数据 全 市 : 数据 仓库 的 替代 品 ? 
业界 有 一 种 建造 数据 仓 麻 非 常 昂 责 和 繁 开 的 说 法 。 数 据 仓库 确实 需要 非常 多 的 

资源 ， 但 是 建立 数据 仓库 绝对 物 有 所 值 。 不 建立 数据 仓 摩 的 观点 常常 导致 一 种 比 数 

据 仓 靡 差 的 产物 一 一 通常 是 数据 集 市 。 这 样 的 前 提 是 你 确实 不 用 付出 数据 仓库 的 坎 

昂 代 价 和 投资 就 可 以 从 数据 集 市 中 得 到 很 多 收益 。 

从 短期 的 角度 来 看 ， 这 种 观点 确实 有 一 些 优 点 。 但 从 长 期 的 角度 来 看 ， 数 据 集 

市 永远 不 可 能 代替 数据 仓库 。 原 因 如 下 面 的 图 所 示 。 

















数据 仓库 与 数据 集 市 的 关系 


数据 集 市 中 的 数据 结构 是 根据 部 门 的 特殊 需求 而 建立 的 。 金 融 部 门 在 其 数据 集 
市 中 有 一 种 结构 ， 销 售 部 门 在 其 数据 集 市 中 有 另 一 种 结构 ， 而 市 场 部 门 在 其 数据 集 
市 中 又 有 一 种 与 这 两 种 都 不 同 的 结构 。 它 们 的 所 有 结构 部 要 依赖 于 数据 仓库 中 迷 度 
化 的 数据 。 

任何 一 个 给 定 的 数据 集 市 中 的 数据 结构 部 与 其 他 数据 集 市 的 不 同 。 例 如 ， 销 售 
数据 集 市 的 数据 结构 将 不 同 于 市 场 数据 集 市 的 数据 结构 。 数 据 集 市 结构 一 般 是 星 形 
连接 并 且 包 含 事实 表 和 维 表 。 数 据 集 市 结构 一 般 是 多 维 结构 并 由 OLAP 技 术 支撑 。 

因为 每 一 个 数据 集 市 都 有 一 个 不 同 的 数据 结构 ， 试 图 将 任何 一 个 数据 集 市 转变 
成 为 数据 仓库 都 不 具 意 义 。 当 把 一 个 数据 集 市 的 星 形 连 接 转变 成 数据 仓库 时 ， 数 据 
仓库 只 对 一 个 数据 集 市 及 其 用 户 是 最 优 的 ， 而 对 其 他 任何 数据 集 市 和 用 户 都 不 是 最 
优 的 (或 实际 可 用 的 )。 数 据 集 市 产生 的 结构 对 于 在 被 优化 的 部 门 中 操作 的 工作 人 员 
以 外 的 人 来 说 是 不 可 重用 的 。 

通常 数据 集 市 数据 结构 ， 员 穿 整 个 企业 ， 不 可 重用 ， 没 有 灵活 性 ,不 能 作为 调 
和 矛盾 的 基础 ， 也 不 能 为 新 出 现 的 未 知 需求 集合 提供 便利 。 然 而 ,数据 仓库 中 规范 
化 粒度 数据 却 正好 满足 所 有 这 些 要 求 。 


3.18 支持 操作 型 数据 存储 


一 般 来 说 ， 操 作 型 数据 存储 〈ODS) 有 四 类 : 

。 第 I 类 ， 第 I 类 ODS 中 ， 从 操作 型 环境 到 ODS 的 数据 更 新 是 同步 进行 的 。 

。 第 I 类 ， 第 HI 类 ODS 中 ,操作 型 环境 与 ODS 的 数据 更 新 之 间 有 2~3 个 小 时 的 间隔 。 
。 第 II 类 ， 第 II 类 ODS 中 ， 操 作 型 环境 与 ODS 的 数据 更 新 的 同步 是 在 夜间 完成 的 。 


。 第 IV 类 ， 第 IV 类 ODS 中 ， 从 数据 仓库 到 这 类 ODS 的 更 新 是 不 预先 规划 的 。 图 3-56 示 出 了 


这 种 支持 。 


数据 仓库 中 的 数据 在 分 析 后 ， 定 期 地 放置 到 ODS 中 。 传 送 到 ODS 中 的 数据 都 是 概要 数据 ， 


即 这 些 数据 概括 了 不 同 数据 的 实际 出 现 情况 。 作 为 概要 数据 的 一 个 简单 例子 ， 假 设 对 一 个 顾 
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客 的 交易 细节 进行 分 析 。 顾 客 活动 已 经 持续 几 年 了 。 通 过 分 析 数 据 仓库 中 的 交易 ， 可 以 产生 
关于 一 个 顾客 的 以 下 概要 信息 : 

。 顾客 名 与 顾客 ID。 

“顾客 数据 量 一 一 高 / 低 。 

* 顾客 带 来 的 一 利 一 一 高 / 低 。 

。 顾客 活动 的 频繁 程度 一 一 非常 频繁 /非常 偶然 。 

“顾客 喜好 /厌恶 (跑车 ， 苏 格 兰 麦 芽 酒 )。 





图 3-56 数据 仓库 为 第 IV 类 ODS 提供 支持 


概要 记录 中 的 每 一 类 信息 都 是 通过 对 数据 仓库 中 的 众多 详细 记录 检查 、 分 析 建 立 的 。 这 
样 ， 数 据 仓库 中 的 数据 与 第 VV 类 ODS 中 的 概要 数据 在 本 质 上 有 所 不 同 。 


3.19 需求 和 Zachman 框 架 


数据 仓库 不 是 由 处 理 需求 建造 成 的 ， 而 是 根据 企业 需求 而 设计 的 。 企 业 需 求 集中 于 整个 企 
业 ， 而 不 只 是 直接 的 应 用 程序 。 企 业 需 求 综合 地 看 待 对 于 处 理 、 数 据 和 基础 框架 的 所 有 需求 。 

聚集 和 组 织 企业 需求 的 最 好 的 办 法 之 一 是 叫做 Zachman 框 架 的 方法 。Zachman 框 架 方 法 以 
它 的 发 明 者 一 一 John ,Zachman 的 名 字 命 名 ,他 是 企业 体系 结构 的 先驱 者 之 一 。 图 3-57 描 述 了 
Zachman 框 架 。 

Zachman 框 架 是 保证 企业 的 所 有 方面 都 在 系统 开发 中 得 到 考虑 的 便捷 工具 。 和 矩阵 方法 要 求 
考虑 到 所 有 的 方面 ， 而 不 仅 是 少数 几 个 方面 。Zachman 框 架 的 建立 需要 建立 一 定 的 规则 ， 以 
及 从 不 同 的 方面 看 待 组 织 的 信息 需求 。 以 许多 方式 ， 为 一 个 组 织 建立 Zachman 框 架 的 直接 产 
物 是 视图 和 上 下 文 关系 。 出 现 了 很 多 次 的 情况 是 ， 设 计 者 在 事先 不 用 检查 所 有 众多 的 信息 需 
求 方式 和 使 用 方式 的 情况 下 设计 一 个 系统 。 建 立 Zachman 框 架 迫 使 一 个 组 织 用 一 种 对 于 它 本 
身 和 它 的 长 期 信息 需求 有 益 的 方式 思考 问题 。Zachman 框 架 建立 起 来 以 后 ,这 个 组 织 就 建立 
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起 一 张 可 以 用 于 精确 表述 企业 需求 的 蓝图 。 


数据 功能 ”网络 人 时 间 目标 





范围 
企业 模型 
系统 模型 
技术 模型 
组 件 


图 3-57 Zachman 框 架 
Zachman 框 架 一 旦 建立 ， 企 业 的 信息 需求 就 可 以 从 中 提取 出 来 。 根 据 提取 的 需求 ， 就 可 以 
建立 企业 数据 模型 。 然 后 根据 企业 数据 模型 ， 就 能 以 迭代 的 方式 建立 数据 仓库 ， 这 个 在 前 面 
已 经 讨论 过 了 。 
图 3-58 展 示 了 从 Zachman 框 架 到 数据 仓库 开发 的 过 程 。 
数据 仓库 的 设计 和 开发 与 由 建立 Zachman 框 架 而 得 到 的 企业 视图 之 间 是 互相 依存 的 关系 。 
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图 3-58 从 Zachman 框 架 到 数据 仓库 开发 的 发 展 过 程 
3.20 小 结 


数据 仓库 设计 始 于 数据 模型 。 企 业 数 据 模型 用 于 操作 型 环境 设计 ， 而 修改 后 的 企业 数据 
模型 用 于 数据 仓库 。 数 据 仓 库 以 一 种 反复 进行 的 方式 建造 。 无 法 事先 预知 数据 仓库 的 需求 。 
数据 仓库 的 建造 以 一 种 与 传统 操作 型 系统 完全 不 同 的 开发 生命 周期 进行 。 

数据 仓库 开发 者 主要 关心 的 问题 是 对 大 量 数 据 的 管理 。 为 了 达到 这 个 目标 ， 数 据 粒度 与 
分 区 成 为 了 数据 库 设 计 的 两 个 最 重要 问题 。 然 而 ， 这 里 仍然 存在 很 多 其 他 的 物理 设计 问题 ， 
其 中 大 部 分 围绕 数据 访问 的 效率 。 

当 数据 从 传统 操作 型 环境 向 数据 仓库 中 传送 时 ， 数 据 仓库 就 开始 装载 数据 。 数 据 从 传统 
操作 型 环境 向 数据 仓库 传送 要 经 过 一 个 非常 复杂 的 转换 、 重 新 格式 化 和 集成 的 过 程 。 当 数据 
进入 数据 仓库 时 经 常 存在 一 个 时 间 的 转变 。 一 些 情况 下 ， 操 作 型 数据 没有 加 时 规 ， 而 另 一 些 
情况 下 ， 则 需要 对 操作 型 数据 的 粒度 级 别 进行 调整 。 

数据 模型 有 三 个 层次 一 一 高 层 ， 中 层 ， 低 层 。 数 据 模型 是 能 够 采用 反复 方式 建造 数据 仓 
库 的 关键 。 高 层 模型 中 的 实体 与 企业 的 主要 主题 域 有 关 。 低 层 模型 与 数据 仓库 的 物理 数据 库 
设计 有 关 。 

在 最 低层 次 的 数据 库 设 计 中 ， 如 果 整 个 机 构 对 数据 都 有 统一 的 观察 方式 ， 那 么 可 以 进行 
轻 度 反 向 规范 化 处 理 。 数 据 轻 度 反 向 规范 处 理 的 一 些 技术 包括 建立 数组 、 明 智 地 建立 数据 元 
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余 以 及 建立 创造 性 索引 。 

数据 仓库 记录 的 基本 结构 包括 时 蕉 、 关 键 字 、 直 接 数据 和 二 级 数据 。 所 有 (以 某 一 种 形 
式 或 其 他 形式 进行 的 ) 数据 仓库 数据 库 设 计 都 遵循 这 种 简单 模式 。 

参照 表 应 当 置 于 数据 仓库 中 ， 并 与 其 他 数据 一 样 根 据 时 间 变 化 进行 管理 。 对 包含 在 数据 
仓库 中 的 参照 数据 的 设计 有 多 种 方法 。 

数据 以 一 种 称 为 “时 间 间 隔 ” 的 方式 装载 进入 数据 仓库 。 这 意味 着 操作 型 环境 一 有 活动 
发 生 ， 数 据 不 是 马上 进入 数据 仓库 。 相 反 ， 操 作 型 环境 新 更 新 的 数据 可 以 在 操作 型 环境 中 停 
留 达 24 小 时 ， 然 后 才 转 移 到 数据 仓库 。 

数据 在 从 操作 型 环境 向 数据 仓库 环境 的 传送 过 程 中 所 经 历 的 转换 是 非常 复杂 的 。 这 其 中 
有 DBMS 的 变化 、 操 作 系 统 的 变化 、 硬 件 体系 结构 的 变化 、 语 义 的 变化 和 编码 变化 等 等 。 在 
数据 从 操作 型 环境 向 数据 仓库 环境 的 传送 中 要 考虑 到 许多 种 问题 。 

数据 仓库 中 记录 的 创建 是 由 操作 型 环境 中 发 生 的 活动 或 事件 触发 的 。 一 些 情况 下 ， 发 生 
了 如 销售 这 样 的 事件 ; 另 一 些 情况 下 ， 则 是 用 于 标记 规律 性 的 时 间 推 移 的 事件 ， 如 一 个 月 的 
结束 、 一 个 星期 的 结束 。 

概要 记录 是 由 许多 不 同 的 历史 活动 组 成 的 复合 记录 。 概 要 记录 是 数据 的 复合 表示 。 

星 形 连 接 是 一 种 经 常 被 错误 地 应 用 于 数据 仓库 环境 的 数据 库 设计 技术 。 在 星 形 连接 多 维 
方法 中 ， 数 据 库 设计 是 基于 一 个 主题 域 中 数据 的 出 现 次 数 和 数据 的 访问 方式 进行 的 。 星 形 连 
接 设 计 适用 于 数据 集 市 领域 ， 而 不 适用 于 数据 仓库 领域 。 使 用 星 形 连接 来 建造 数据 仓库 是 一 
种 错误 ， 因 为 这 将 使 建立 起 来 的 数据 仓库 对 于 一 部 分 用 户 来 说 是 最 优 的 ， 而 无 法 为 所 有 其 他 
用 户 带 来 最 优 的 结果 。 
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确定 数据 仓库 中 数据 的 恰当 的 粒度 是 数据 仓库 开发 者 需要 面 对 的 一 个 最 重要 的 设计 问题 。 
如 果 数 据 仓 库 的 粒度 确定 得 合理 ， 设 计 和 实现 中 的 其 余 方 面 就 可 以 进行 得 非常 顺畅 ; 相反 ， 
如 果 粒 度 确定 得 不 合理 ， 就 会 使 得 所 有 方面 都 很 难 进行 。 

粒度 对 于 数据 仓库 体系 结构 设计 人 员 也 非常 重要 ， 因 为 粒度 会 影响 到 那些 依赖 于 从 中 获 
得 数据 的 数据 仓库 的 所 有 环境 。 粒 度 影 响 数据 传送 到 不 同 环境 中 的 效率 ， 从 而 决定 可 以 进行 
的 分 析 的 类 型 。 

粒度 的 主要 问题 是 使 其 处 于 合适 的 级 别 ， 粒 度 级 别 既 不 能 太 高 也 不 能 太 低 。 

如 第 2 章 所 述 ， 在 选择 适当 粒度 级 别 的 过 程 中 需要 进行 的 权衡 将 围绕 管理 大 量 的 数据 和 存 
储 尽 可 能 高 粒度 级 别 上 的 数据 来 进行 ， 避 免 因 细节 数据 量 太 大 而 导致 的 数据 无 法 使 用 的 问题 。 
此 外 ， 如 果 有 真正 非常 大 量 的 数据 ， 就 要 考虑 将 数据 中 不 活跃 的 部 分 移送 到 溢出 存储 器 上 。 


4.1 粗略 估算 


确定 适当 粒度 级 别 所 要 做 的 第 一 件 事 就 是 对 数据 仓库 中 将 来 的 数据 行 数 和 所 需 的 DASD 
(直接 存 取 存储 设备 ) 数 进行 粗略 估算 。 毫 无 疑问 ,即使 在 最 好 的 情况 下 ， 也 仅 能 做 一 下 估计 。 
但 在 建立 数据 仓库 之 初 ， 所 需 的 其 实 也 只 是 一 个 对 数量 级 的 估计 。 

对 将 在 数据 仓库 中 存储 的 数据 的 行 数 进行 粗略 估算 对 于 体系 结构 设计 人 员 来 说 是 非常 有 
用 的 。 如 果 数 据 只 有 10 000 行 ， 那 么 几乎 任何 粒度 级 别 都 不 会 有 问题 。 如 果 数 据 有 10 000 000 
行 ， 那么 就 需要 一 个 低 的 粒度 级 。 如 果 有 100 亿 行 ， 不 但 需要 有 一 个 高 粒度 级 ， 还 可 能 将 大 部 
分 数据 移 到 溢出 存储 器 上 去 。 

图 4-1 给 出 了 一 个 计算 数据 仓库 占用 空间 的 方法 路 径 。 第 一 步 是 确定 数据 仓库 中 将 要 创建 
的 所 有 表 。 通常 情况 下 ， 儿 乎 总 是 有 一 两 个 非常 大 的 表 和 许多 小 一 些 的 支持 表 。 然 后 ， 佑 计 
每 张 表 中 行 的 大 小 。 确 切 的 大 小 可 能 难以 确定 ， 估 计 一 个 下 界 和 一 个 上 界 足 估 。 


| 





估算 数据 仓库 环境 中 的 行 数 /空间 大 小 
E. 对 每 一 个 已 知 的 表 : 
计算 一 行 所 占 字 节 数 的 
。 最 大 估计 值 
*。 最 小 估计 值 
一 年 内 ， 
最 大 行 数 可 能 是 多 少 ? 
最 小 行 数 可 能 是 多 少 ? 
五 年 内 ， 
最 大 行 数 可 能 是 多 少 ? 
最 小 行 数 可 能 是 多 少 ? 
对 表 的 每 个 关键 字 : 
该 关键 字 的 大 小 ( 按 字 节 ) 是 多 少 ? 
一 年 总 的 最 大 空间 = 最 大 行 大 小 x 一 年 内 最 大 行 数 
一 年 总 的 最 小 空间 = 最 小 行 大 小 x 一 年 内 最 小 行 数 
2. 对 所 有 已 知 的 表 重 复 第 1 步 。 


图 4-1 空间 / 行 计算 
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接 下 来 ， 估 计 --- 年 内 表 中 可 能 的 最 少 行 数 和 最 多 行 数 。 这 也 是 设计 者 所 要 解决 的 最 大 问 
题 。 比 方 说 “个 顾客 表 ， 估 计 在 一 定 的 商业 环境 和 该 公司 的 商业 计划 影响 下 的 当前 的 顾客 数 。 
如 果 当 前 没有 业务 ， 将 其 估计 为 总 的 市 场 业 务 量 与 期 望 市 场 份额 的 乘积 ， 如 果 市 场 份额 不 可 
预测 的 话 ， 就 使 用 对 竞争 对 手 估 计 出 的 业务 量 。 总 之 ， 以 一 个 从 一 方 或 多 方 收 集 的 对 顾客 数 
的 合理 估算 作为 出 发 点 。 

如 果 数 据 仓库 用 来 存放 业务 活动 ， 就 不 是 估计 顾客 数量 ， 而 是 估计 在 每 个 时 间 单位 内 进 
行 的 业务 活动 情况 。 同 样 ， 可 以 用 相同 的 方法 ， 分 析 所 选 时 间 段 当前 的 业务 报告 、 竞 争 对 手 
的 业务 情况 、 经 济 学 家 的 预测 报告 以 及 平均 顾客 活动 情况 等 等 。 

估计 完 一 年 内 数据 仓库 中 数据 单元 的 数量 (用 上 下 限 推 测 的 方法 ) 后 ， 重 复 用 同样 的 方 
法 对 五 年 内 的 数据 进行 估计 。 

粗略 数据 估计 完成 之 后 ， 还 要 计算 一 下 索引 数据 所 占 的 空间 。 确 定 每 张 表 (对 表 中 的 每 
个 关键 字 或 会 被 直接 搜索 的 数据 元 素 ) 的 关键 字 或 数据 元 素 的 长 度 ， 并 弄 清楚 是 否 原始 表 中 
的 每 条 记录 都 存在 关键 字 。 

现在 ， 将 各 表 中 行 数 可 能 的 最 大 值 和 最 小 值 分 别 乘 以 数据 的 最 大 长 度 和 最 小 长 度 。 另 外 ， 
还 更 将 索引 项 数 上 月 与 关键 字 长 度 的 乘积 累加 到 总 的 数据 量 中 确定 出 最 终 需 要 的 数据 总 量 。 

计算 完 索 引 之 后 ， 考 虑 备份 和 恢复 需要 多 少 空间 。 在 一 些 情况 下 ， 备 份 和 恢复 使 用 磁盘 
存储 器 。 在 其 他 情况 下 ， 使 用 离线 存储 器 。 在 一 些 情况 下 ， 只 备份 所 有 表 中 的 一 部 分 。 在 其 
他 情况 下 ， 所 有 的 表 都 被 锁 在 一 起 ， 并 且 作 为 一 个 整体 进行 备份 。 

注意 ”对 数据 仓库 大 小 的 信 计 预测 几乎 总 是 偏 低 ， 而 有 全， 数据 仓库 的 增长 速率 一 般 比 

预测 的 要 快 。 


4.2 规划 过 程 的 输入 


如 图 4-2 所 示 ， 估 计 出 的 行 数 和 DASD 数 就 成 了 规划 过 程 的 输入 。 进 行 估计 时 ， 结 果 的 准 
确 程度 只 要 达到 数量 级 就 行 了 ， 更 精细 的 准确 度 只 不 过 是 浪费 时 间 。 


_ 


需要 多 少 DASD? 期 户 
的 排序 可 以 达到 多 快 ? 


室 间 估计 ， 行 数 估计 | 


S 


请 要 双重 粒度 吗 ? 


图 4-2 使 用 空间 估计 得 到 的 结果 
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4.3 溢出 存储 器 中 的 数据 


对 数据 仓库 大 小 的 粗略 估计 完成 之 后 ， 下 一 步 就 是 将 数据 仓库 环境 中 数据 的 总 行 数 和 图 
4-3 中 所 给 出 的 表 进 行 比较 。 需 要 根据 数据 仓库 环境 中 将 具有 的 总 行 数 的 多 少 ， 采 取 不 同 的 设 
计 、 开 发 及 存储 方法 。 以 一 年 期 为 例 ， 如 果 总 的 行 数 少 于 1 000 000 行 ， 和 任何 的 设计 和 实现 实 
际 上 都 是 可 行 的 ， 没 有 数据 需要 转移 到 溢出 存储 器 中 。 如 果 总 行 数 是 10 000 000 行 或 略 少 ， 那 
么 设计 时 就 需要 小 心 谨慎 ， 这 时 也 不 太 可 能 有 数据 一 定 要 转移 到 溢出 存储 器 。 如 果 在 一 年 内 
总 行 数 超过 100 000 000 行 ， 设 计 不 但 要 小 心 谨 慎 地 进行 ， 而且 有 一 些 数 据 要 转移 到 溢出 存储 
器 。 如 果 在 数据 仓库 环境 中 总 行 数 超过 10 亿 行 ， 一 定 会 有 大 量 数据 要 转移 到 溢出 存储 器 中 去 ， 
并 且 在 设计 和 实现 中 应 该 非常 小 心 谨慎 。 

对 于 五 年 期 ， 总 行 数 将 大 致 改变 了 一 个 数量 级 或 更 多 。 经 推测 ， 五 年 以 后 可 能 会 出 现 如 
下 因素 : 

外 在 管理 数据 仓库 中 的 大 量 数据 时 ， 将 有 更 多 可 用 的 专门 技术 。 

香 硬 件 费 用 将 会 有 所 下 降 。 

外 将 可 以 使 用 功能 更 强大 的 软件 工具 。 

日 最 终 用 户 将 更 加 专业 化 。 

所 有 这 些 因素 表明 ， 可 以 对 一 个 长 期 时 间 范 围 内 的 、 量 更 大 的 数据 进行 管理 。 不 幸 的 是 ， 
要 对 五 年 内 的 数据 量 进行 准确 预测 几乎 是 不 可 能 的 ， 因 此 ， 这 个 估计 只 是 一 个 粗略 的 推测 。 

有 意思 的 一 点 是 ， 数 据 仓库 中 使 用 的 总 字 节 数 与 该 数据 仓库 的 设计 和 粒度 关系 不 大 。 换 句 
话说 ， 记 录 是 25 个 字 节 长 或 者 是 250 个 字 节 长 是 没有 关系 的 。 只 要 记录 的 长 度 处 于 一 个 合理 的 
尺寸 范围 内 就 行 ， 如 果 是 这 样 的 话 ， 则 图 4-3 所 示 的 表 就 仍然 适用 。 当 然 ， 如 果 记 录 是 250 000 
字 节 长 ， 那 么 记录 的 长 度 就 很 重要 了 。 然 而 ， 在 数据 仓库 中 ， 这 种 长 度 的 记录 是 不 多 见 的 。 
忽略 记录 长 度 的 理由 与 数据 索引 是 密切 相关 的 ， 还 有 其 他 很 多 东西 与 数据 索引 相关 。 无 论 创 
建 索 引 的 记录 的 大 小 怎样 ， 需 要 相同 数目 的 索引 项 。 只 是 在 特殊 情况 下 创建 索引 的 记录 的 实 
际 大 小 在 决定 数据 仓库 中 的 数据 是 否 应 该 放 进 溢出 存储 器 的 时 候 起 到 一 定 的 作用 。 


100 000 000 数据 同时 存在 于 磁盘 与 溢出 存储 器 | 1 000 000 000 数据 同时 存在 于 磁盘 与 溢出 存储 
上 ， 但 大 部 分 是 在 溢出 存储 器 土 ， 需 器 上 ， 但 大 部 分 是 在 溢出 存储 器 上 ， 
要 认真 设计 粒度 需要 认真 设计 粒度 
可 能 有 一 些 数据 存储 于 溢出 存储 器 ， 可 能 有 一 些 数据 存储 于 溢出 存储 


但 大 部 分 仍 处 于 磁盘 中 ， 需 要 考虑 粒 器 ， 但 大 部 分 仍 处 于 磁盘 中 ， 需 要 


度 问题 考虑 粒度 问题 
数据 存储 在 磁盘 上 ， 几 乎 可 以 采用 数据 存储 在 磁盘 上 ， 几 乎 可 以 采 
任何 数据 库 设计 用 所 有 数据 库 设 计 
所 有 数据 存储 在 磁盘 上 ， 可 以 采用 数据 存储 在 磁盘 上 ， 可 以 采用 任 
任何 数据 库 设计 何 数据 库 设计 





图 4-3 将 数据 仓库 环境 中 的 总 行 数 与 本 表 进 行 对 照 
溢出 存储 器 


数据 仓库 环境 中 的 数据 会 以 IT 专 业 人 员 前 所 未 见 的 速率 增长 。 历 史 数据 与 细节 数据 的 结 
合 造成 了 这 种 显著 的 增长 速率 。 在 数据 仓库 出 现 之 前 ,，“ 万 亿 字 节 ” 和 “ 千 万 亿 字 第 ”这 些 字 
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眼 还 只 用 于 理论 中 。 

随 着 数据 量 的 不 断 增长 ， 经常 使 用 的 数据 与 不 经 常 使 用 的 数据 出 现 了 自然 的 分 化 。 不 经 
常 使 用 的 数据 有 时 称 为 睡眠 数据 或 不 活跃 数据 。 数 据 仓 库 在 建立 并 使 用 了 一 段 时 期 之 后 ， 其 
中 的 大 部 分 数据 都 变 旧 而 没 人 使 用 。 此 时 ， 分 离 这 部 分 数据 ， 并 将 它们 存储 到 另 一 种 存储 介 
质 上 去 是 非常 有 意义 的 。 

大 部 分 专业 人 员 都 从 未 在 磁盘 存储 器 之 外 建立 过 系统 ， 但 是 随 着 数据 仓库 不 断 变 大 ， 将 数 
据 置 于 多 种 存储 介质 上 去 在 经 济 和 技术 上 都 是 有 意义 的 。 数 据 仓库 中 经 常 使 用 的 数据 仍然 留 在 
高 性 能 的 磁盘 存储 器 中 ， 而 将 不 经 常 使 用 的 那些 数据 转移 到 海量 备用 存储 器 或 近 线 存储 器 中 。 

将 数据 存储 在 海量 备用 存储 器 或 近 线 存储 器 中 比 存储 在 磁盘 存储 器 中 要 便宜 得 多 ， 而 且 ， 
数据 存储 在 海量 备用 存储 器 或 近 线 存储 器 中 并 不 是 说 就 不 能 访问 了 。 海 量 备 用 存储 器 或 近 线 
存储 器 中 存储 的 数据 与 磁盘 上 存储 的 数据 一 样 可 以 访问 。 通 过 将 不 经 常 使 用 的 或 睡眠 数据 转 
移 到 海量 备用 存储 器 或 近 线 存储 器 上 ， 体 系 结构 设计 人 员 就 为 高 性 能 的 、 活 跃 的 数据 的 有 效 
使 用 清除 了 障碍 。 事 实 上 ， 将 数据 转移 到 近 线 存储 器 能 大 大 地 提高 整个 环境 的 性 能 。 

事实 上 ， 高 性 能 的 磁盘 存储 器 有 儿 种 替代 选择 。 一 种 是 低 性 能 的 磁盘 存储 器 〈《 有 时 候 称 
为 “ 胖 ” 存 储 器 )。 一 种 是 近 线 存储 器 ， 即 自动 控制 的 基于 卡 式 磁带 机 的 串 行 磁带 。 还 有 一 种 
串 行 磁带 ， 这 种 磁带 比 近 线 存 储 器 要 不 精密 的 多 。 事 实 上 ， 高 性 能 磁盘 存储 器 之 外 还 有 各 种 
物理 存储 媒介 。 

为 了 能 在 整个 系统 范围 内 访问 数据 ， 并 为 了 能 将 不 同 的 数据 放 在 存储 器 的 合适 位 置 上 ， 
要 求 能 为 海量 备用 存储 器 / 近 线 存储 器 提供 软件 支持 。 图 4-4 示 出 了 海量 备用 存储 器 / 近 线 存储 
器 环境 所 需 的 支持 基础 框架 的 一 些 较 重 要 的 组 成 部 分 。 


监控 数据 仓库 的 使 用 









近 线 路 量 备用 存储 器 
de 
i 


图 4-4 使 用 海量 溢出 存储 器 要 有 相应 的 软件 支持 


图 4-4 中 表明 ， 为 确定 数据 的 使 用 情况 ， 需 要 有 一 个 数据 监控 工具 。 数 据 监控 工具 可 以 通 
过 确定 在 数据 仓库 中 应 该 在 哪里 存储 数据 ， 什 么 样 的 数据 正在 使 用 和 没有 使 用 。 磁 盘存 储 器 
和 近 线 存储 器 之 间 的 数据 移动 是 通过 一 种 称 为 跨 介 质 存 储 管 理 器 (CMSM) 的 软件 来 控制 的 。 
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针对 海量 备用 存储 器 / 近 线 存储 器 中 的 数据 ， 如 果 要 对 其 进行 直接 访问 的 话 ， 可 以 使 用 能 够 知 
道 数据 在 近 线 存储 器 中 的 存储 位 置 的 软件 来 完成 。 要 有 效 地 使 用 海量 备用 存储 器 / 近 线 存储 器 ， 
至 少 要 具备 三 个 软件 组 成 部 分 。 

在 许多 情况 下 ， 海 量 备用 存储 器 / 近 线 存 储 器 是 作为 数据 仓库 的 溢出 存储 器 来 使 用 的 。 在 
逻辑 上 ， 为 了 能 实现 一 个 数据 存储 映像 ， 数 据 仓 库 同时 延伸 到 磁盘 存储 器 和 海量 备用 存储 器 / 
近 线 存储 器 上 。 当 然 ， 在 物理 上 ， 数 据 可 以 存放 在 任意 数目 的 数据 卷 中 。 

存放 不 常用 数据 的 溢出 存储 器 是 数据 仓库 的 一 个 重要 组 成 部 分 。 溢 出 存储 器 对 于 粒度 有 
很 大 影响 。 如 果 没 有 这 种 存储 器 ,设计 者 必须 将 粒度 级 别 调整 到 磁盘 技术 的 容量 和 预算 允许 
的 水 平 有 了 溢出 存储 器 ， 设 计 者 可 以 放手 建立 想 要 的 低 粒 度 级 别 。 

溢出 存储 器 可 以 建立 在 任意 多 种 的 存储 介质 上 。 一 些 常 见 的 介质 有 光 存 储 器 、 磁 带 (有 
时 称 为 “ 近 线 存储 器 " ) 和 廉价 磁盘 。 磁 带 存储 介 质 不 再 是 那 种 老式 的 、 带 有 真空 单元 且 必 须 
要 有 操作 员 关 茹 的 卷 带 ， 而 是 不 再 需要 人 手 触 及 存储 单元 、 存 储量 大 、 自 动 控 制 的 简 仓 式 存 
储 器 ， 也 可 以 快速 检索 简 仓 等 等 。 

备用 形式 的 海量 存储 器 便宜 、 可 靠 ， 并 能 存储 比 高 性 能 磁盘 设备 ( 另 一 种 存储 器 ) 所 能 
存储 的 数据 多 得 多 的 海量 数据 。 这 样 ， 备 用 形式 的 海量 存储 器 就 作为 数据 仓库 的 溢出 存储 器 。 
一 些 情况 下 ,需要 有 一 种 能 独立 于 存储 设备 进行 操作 的 查询 工具 。 这 样 ， 用 户 提出 查询 的 时 
候 ， 不 需要 预先 知道 数据 存放 在 什么 地 方 。 查 询 提 交 后 ， 由 系统 负责 将 数据 找 出 来 。 

虽然 最 终 用 户 只 要 获取 数据 而 不 需要 知道 数据 放 在 何 处 是 很 方便 的 但是， 这 里 面 莉 含 
了 性 能 的 代价 。 如 果 最 终 用户 经 常 访 问 海量 备用 存储 器 里 的 数据 ， 那 么 查询 速度 不 会 快 ， 并 
且 ， 为 了 给 查询 请 求 提供 服务 ， 需 要 消耗 大 量 的 机 器 资源 。 因 此 ， 强 烈 建议 数据 体系 结构 设 
计 人 员 要 保证 存储 于 海量 备用 存储 器 中 的 数据 不 被 经 常 访问 。 

有 几 种 方法 保证 不 经 常 访问 存储 于 海量 备用 存储 器 的 数据 。 一 种 简单 的 方法 是 当 数 据 达 
到 一 段 时 间 (如 24 个 月 ) 才 将 它们 存放 到 海量 备用 存储 器 中 。 另 一 种 方法 是 将 菜 些 类 型 的 数 
据 存 储 在 海量 备用 存储 器 中 ， 而 将 其 他 类 型 数据 存储 于 磁盘 存储 器 中 。 每 月 顾客 记录 汇总 数 
据 可 以 存储 于 位 盘存 储 器 中 ， 而 生成 每 月 汇总 的 细节 数据 则 可 以 存储 在 海量 备用 存储 器 中 。 

在 查询 处 理 的 另 一 些 情况 中 ， 和 希望 能 将 基于 磁盘 的 查询 与 基于 海量 备用 存储 器 的 查询 分 
开 。 这 样 ， 一 种 查询 在 磁盘 存储 器 上 进行 ， 另 一 种 查询 在 海量 备用 存储 器 上 进行 。 这 种 情况 
下 ， 不 用 担心 需 从 海量 备用 存储 器 上 取 数 据 的 查询 带 来 的 整体 性 能 降低 。 

这 种 查询 分 离 可 以 带 来 很 多 好 处 ， 特 别 是 利于 保护 系统 资源 。 通 常 ， 在 海量 备用 存储 器 
上 进行 的 查询 类 型 需要 访问 大 量 数据 。 由 于 这 些 长 时 间 进 行 的 活动 在 完全 分 离 的 环境 中 ， 数 
据 管理 员 完全 不 必 担 心 基于 磁盘 环境 的 查询 性 能 . 

要 使 溢出 存储 器 环境 正常 运行 ， 有 几 种 软件 是 必需 的 。 图 4-5 示 出 了 这 些 软件 的 类 型 及 其 
所 处 的 位 置 。 

图 4-5 表 明 ， 溢 出 存储 环境 要 正常 运行 需要 两 个 软件 ， 跨 介质 存储 管理 器 和 数据 活动 监控 
器 。 跨 介质 存储 管理 器 对 在 磁盘 存储 环境 和 海量 备用 存储 环境 之 间 的 数据 流动 进行 管理 。 当 
数据 老化 或 访问 率 下 降 时 ， 将 从 磁盘 转移 到 海量 备用 存储 器 。 当 有 数据 请 求 或 检测 到 将 来 会 
有 多 个 数据 请 求 时 ， 数 据 可 以 从 海量 备用 存储 环境 转移 到 磁盘 存储 环境 。 通 过 在 磁盘 存储 器 
和 海量 备用 存储 器 之 间 来 回 地 移动 数据 ， 数 据 管理 员 可 以 获得 系统 的 最 佳 性 能 。 

数据 活动 监控 器 是 所 需 的 第 二 个 软件 ， 用 于 确定 哪些 数据 正在 被 访问 ， 哪 些 没 被 访问 。 
数据 活动 监控 器 能 提供 数据 存储 的 位 置信 息 (存在 磁盘 存储 器 上 还 是 海量 备用 存储 器 上 )， 
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图 4-5 要 使 得 溢出 存储 器 发 挥 正常 作用 ， 至 少 需 要 有 两 种 
软件 一 一 跨 介质 存储 管理 器 与 数据 活动 监控 器 


4.4 确定 粒度 级 别 


在 完成 有 多 少数 据 将 放 人 数据 仓库 的 简单 分 析 之 后 〈 事 实 上 ， 许 多 公司 发 现 他 们 需要 至 
少将 一 部 分 数据 存放 到 溢出 存储 器 中 )， 下 一 步 就 是 确定 存储 在 磁盘 存储 器 中 的 数据 的 粒度 级 
别 。 这 一 步 需要 一 些 常 识 和 直觉 。 在 很 低 的 细节 级 上 建立 基于 磁盘 的 数据 仓库 是 没有 意义 的 ， 
因为 处 理 这 些 数 据 需 要 太 多 的 资源 。 而 在 太 高 的 粒度 级 上 建立 基于 磁盘 的 数据 仓库 ， 则 意味 
着 许多 分 析 必 须 依 靠 溢出 存储 器 中 的 数据 进行 。 因 此 ， 确 定 适当 的 粒度 级 别 要 做 的 第 一 件 事 
就 是 进行 一 次 合理 的 推测 。 

进行 合理 的 推测 只 是 一 个 开端 ， 还 需要 通过 一 定量 的 反复 分 析 来 改进 这 个 推测 ， 如 图 4-6 
所 示 。 对 于 轻 度 综合 的 数据 ， 为 了 确定 合适 的 粒度 级 别 ， 惟 一 可 行 的 方法 是 将 数据 放 到 最 终 
用 户 的 面前 。 只 有 当 最 终 用 户 实际 看 到 了 数据 之 后 ， 才 能 做 出 确定 的 回答 。 图 4-6 说 明了 必须 
反复 进行 的 反馈 循环 。 

开发 者 


和 i 
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经 验 规则 : 


在 第 一 次 的 设计 过 程 中 ， 如 果 有 50% 是 正确 的 ， 那 么 整个 设计 就 是 成 功 的 





和 人 户 的 反馈 意见 


。 参 考 别 人 的 经 验 

“与 有 经 验 的 用 户 协同 工作 

“ 以 企业 中 已 有 的 功能 需求 作为 参考 
“用 模拟 的 输出 进行 JAD 会 议 


图 4-6 最 终 用 户 的 态度 : “既然 我 已 看 到 我 能 够 做 些 什么 ， 我 可 以 告诉 你 什么 才 是 真正 有 用 的 ” 





96 蓝 子 间 





在 确定 粒度 级 别 的 过 程 中 ， 第 二 个 需要 考虑 的 是 对 从 数据 仓库 获取 数据 的 各 个 不 同 的 体 
系 结构 实体 的 需求 进行 预测 。 在 一 些 情况 下 ， 确 定 过 程 可 以 科学 地 进行 。 但 实际 上 ， 这 个 预 
测 不 过 是 一 种 合理 的 推测 罢了 。 通 常 ， 如 果 数 据 仓 库 中 的 粒度 级 别 足 够 低 ， 那 么 数据 仓库 设 
计 就 能 满足 所 有 体系 结构 中 的 实体 的 需求 。 很 细节 的 数据 总 是 可 以 进行 汇总 的 ， 然 而 ， 要 把 
不 够 细节 的 数据 分 开 则 不 那么 容易 。 因 此 ， 数 据 仓 库 中 的 数据 需要 处 于 最 低 的 公共 细节 水 平 。 


4.5 一 些 反馈 循环 技巧 


可 以 使 用 以 下 的 一 些 技巧 使 反馈 循环 和 谐 地 进行 : 

得 以 几 个 很 小 、 很 快 的 步 又 建立 数据 仓库 最 初 的 几 个 部 分 ， 开 发 过 程 的 每 个 步 又 结束 时 ， 
都 要 仔细 聆听 最 终 用 户 的 意见 ， 并 准备 随时 做 出 快速 的 调整 。 

如 果 可 能 ， 使 用 原型 并 且 利 用 从 原型 中 收集 的 观察 资料 使 反馈 循环 发 挥 作用 。 

@ 看 看 别人 是 怎样 确定 他 们 的 粒度 级 别 的 ， 学 习 他 们 的 经 验 。 

四 与 对 当前 过 程 很 了 解 、 有 经 验 的 用 户 一 起 将 反馈 过 程 走 一 遍 。 无 论 如 何 ， 都 要 让 你 的 
用 户 清楚 反馈 循环 的 动态 过 程 。 

得 看 看 企业 中 那些 具有 意义 的 东西 ， 并 将 那些 功能 需求 作为 参考 。 

各 进行 联合 应 用 程序 设计 (JAD) 会 议 ， 并 模拟 输出 结果 以 获得 理想 的 反馈 。 

可 以 用 许多 方法 来 提高 数据 的 粒度 ， 如 以 下 几 条 方法 : 

上 当 源 数据 被 放 入 数据 仓库 时 ， 对 它 进行 汇总 。 

曙 当 源 数据 被 放 入 数据 仓库 时 ， 对 它 求 平均 或 进行 计算 。 

里 把 最 大 /最 小 的 一 组 值 放 入 数据 仓库 。 

里 只 把 显然 需 蓝 的 数据 放 入 数据 仓库 。 

自用 条 件 逻 辑 仅 选 取 记录 的 一 个 子 集 放 入 数据 仓库 。 

对 数据 进行 汇总 或 聚集 有 无 数 的 方法 。 

在 建立 数据 仓库 时 ， 有 一 个 重点 我 们 必须 清楚 地 知道 。 在 典型 的 需求 系统 的 开发 中 ， 在 

还 不 清楚 大 部 分 需求 之 前 就 忙于 进行 下 一 步 是 不 明知 的。 但是， 在 数据 仓库 的 建造 中 ， 如 果 
已 知道 了 至 少 一 半 的 需求 后 ， 还 不 开始 建造 ， 则 样 也 是 不 明智 的 。 换 句 话说， 在 建造 数据 仓 
库 中 ， 如 果 开 发 者 想 等 着 大 多 数 需 求 明 了 以 后 才 开 始 工作 ， 那 么 这 个 仓库 是 永远 建 不 起 来 的 。 
尽快 地 启动 与 DSS 分 析 员 的 反馈 循环 是 非常 重要 的 。 

通常 ， 在 业务 过 程 中 创建 事务 时 ， 这 些 事务 是 根据 大 量 不 同类 型 的 数据 建立 起 来 的 。 一 个 

订单 包含 零件 信息 、 发 货 信息 、 价 格 、 产 品 规格 信息 ， 等 等 。 一 个 银行 交易 包含 顾客 信息 、 交 
易 额 、 账 户 信息 、 顾 客 地 址 信息 ， 等 等 。 当 正常 的 业务 事务 记录 准备 好 放 入 数据 仓库 时 ， 它 们 
的 粒度 级 别 总 是 太 高 ,必须 对 它们 分 解 到 一 个 低 的 粒度 级 别 。 正常 的 情况 是 要 对 数据 进行 分 解 。 
然而 ， 至 少 在 以 下 两 种 情况 下 ， 收 集 到 的 数据 的 粒度 级 别 对 于 数据 仓库 来 说 是 太 低 了 : 

自生 产 过 程控 制 。 模 拟 数据 是 作为 生产 过 程 的 副产品 被 创建 的 。 由 于 这 些 数据 处 于 非常 
低 的 粒度 级 别 ， 不 能 在 数据 仓库 中 使 用 。 为 了 提高 这 些 数 据 的 粒度 级 别 ， 需 要 对 这 些 
数据 进行 编辑 和 聚集 处 理 。 

和 在 网 络 环境 中 产生 的 点 击 流 数据 。 收 集 在 网 络 日 志 中 的 点 击 流 数 据 的 粒度 太 低 ， 从 而 
无 法 放 入 数据 仓库 中 。 为 了 使 点 击 流 数 据 可 以 被 放 入 数据 仓库 ， 必 须 对 数据 进行 编辑 、 
清理 、 重 新 排序 和 汇总 等 处 理 。 

由 此 可 见 ， 对 于 “业务 产生 的 数据 的 粒度 级 别 总 是 太 高 ”这 条 规则 确实 存在 一 些 例外 。 
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4.6 确定 粒度 级 别 的 几 个 例子 ” 
4.6.1 银行 环境 中 的 粒度 级 别 
下 面 ， 考 虑 如 图 4-7 所 示 的 银行 /金融 环境 中 的 简单 数据 结构 的 例子 。 








银行 环境 中 的 双重 粒度 
操作 层 
最 近 60 大 的 交易 活动 长 达 10 年 的 每 月 账户 记录 
账户 
月 份 


























图 4-7 银行 环境 中 双重 粒度 的 简单 例子 


左 侧 (在 操作 层 上 ) 是 操作 型 数据 ， 可 以 看 到 银行 事物 的 细节 。 相 当 于 60 天 的 交易 活动 


数据 都 存储 在 操作 型 在 线 环境 中 。 


操作 型 数据 的 右边 是 轻 度 综合 级 的 数据 ， 总 共 是 10 年 的 历史 活动 记录 。 一 个 账户 在 给 定 
月 份 的 活动 记录 存储 在 数据 仓库 的 轻 度 综合 部 分 。 这 一 部 分 仍然 有 很 多 记录 ， 但 比 起 源 记录 


来 说 要 紧凑 得 多 。 在 轻 度 综合 数据 级 上 ，DASD 和 数据 行 数 都 要 少 得 多 。 


当然 ， 也 有 档案 级 的 数据 (也 就 是 谥 出 层 数 据 )， 其 中 存储 着 每 个 细节 的 记录 。 档 案 级 的 
数据 存储 在 适合 于 大 量 数据 管理 的 介质 上 。 要 注意 ， 并 不 是 数据 的 所 有 字段 都 传送 到 档案 级 
中 去 。 只 有 那些 出 于 法 律 、 信 息 等 要 求 而 需要 的 字段 才 会 存储 起 来 。 即 使 是 在 档案 级 中 ， 在 


将 数据 传送 到 档案 级 时 ， 那 些 以 后 不 会 再 用 到 的 数据 也 会 从 系统 中 清除 出 去 。 


晶 4.6 节 的 标题 是 译 者 根据 上 下 文 内 容 修改 和 添加 的 。 一 一 译 者 注 
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溢出 环境 可 以 放 在 单一 介质 上 ， 如 磁带 这 样 的 存储 便宜 但 访问 困难 的 介质 。 然 而 ， 将 有 
可 能 要 被 访问 的 一 小 部 分 的 档案 级 数据 以 在 线 的 方式 进行 存储 也 是 完全 可 能 的 。 例 如 ， 一 个 
银行 可 以 将 最 近 30 天 的 业务 记录 以 在 线 方式 存储 。 最 近 30 天 的 数据 是 档案 级 数据 ， 而 它们 仍 
然 是 在 线 的 。30 天 结束 后 ， 这 些 数据 送 到 磁带 上 ， 腾 出 的 空间 可 以 存放 下 一 个 30 天 的 档案 级 
数据 。 

我 们 现在 来 看 一 下 在 银行 /金融 系统 体系 结构 化 环境 中 的 数据 的 另 一 个 例子 。 图 4-8 表 明 ， 
所 有 的 顾客 记录 分 布 在 整个 环境 中 。 在 操作 型 环境 中 出 现 的 数据 是 在 当前 使 用 时 准确 的 顾客 
数据 ， 在 轻 度 综合 级 中 ， 存 放 的 也 是 同样 的 数据 (从 数据 定义 的 角度 来 说 是 同样 的 )， 但 这 些 
数据 只 是 每 月 生成 一 次 的 快照。 


银行 环境 中 的 双重 粒度 





当前 顾客 数据 上 个 月 的 顾客 文件 





过 去 10 年 的 连续 顾客 记录 





图 4-8 银行 环境 中 双重 粒度 的 另 一 种 形式 


还 有 一 个 连续 的 文件 存放 长 时 间 范 围 内 的 顾客 数据 (过 去 10 年 的 数据 }， 它 是 根据 每 月 文 
件 生 成 的 。 通 过 这 种 方式 ， 一 个 顾客 的 历史 记录 能 追溯 到 很 长 的 一 段 时 间 以 前 。 
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4.6.2 制造 业 环境 中 的 粒度 级 别 


我 们 再 来 看 另 一 类 企业 一 一 制造 业 的 体系 结构 化 环境 的 一 个 例子 ， 如 图 4-9 所 示 。 在 操作 
层 上 ， 存 储 的 是 按 给 定 若干 零件 的 装配 工作 的 完成 情况 的 制造 记录 。 随 着 装配 过 程 的 运转 ， 


每 一 天 都 会 积累 许多 记录 。 


积累 90 天 的 生产 记录 





制造 业 环 境 中 的 双重 粒度 








30 天 的 日 生产 记录 








图 4-9 制造 业 环境 中 的 一 些 不 同 粒度 级 别 


轻 度 综合 级 上 包括 两 个 表 ， 一 个 表 按 天 汇总 一 种 零件 所 有 生产 活动 ， 另 一 个 表 按 装配 活 
动 和 零件 进行 汇总 。 零 件 的 生产 累计 表 存 放 的 数据 长 达 90 天 ， 而 装配 记录 只 存放 数量 有 限 的 
按 日 期 汇总 的 生产 活动 数据 。 

档案 级 /溢出 环境 中 包括 每 个 生产 活动 的 详细 记录 。 与 银行 系统 中 相同 ， 只 有 那些 以 后 需 
要 的 字段 才 被 存储 起 来 (实际 上 ， 只 有 那些 以 后 有 可 能 有 用 的 字段 才 会 被 存储 起 来 ) 。 

图 4-10 中 ， 给 出 了 另 一 个 制造 业 环 境 中 的 有 关 数 据 仓 库 粒 度 的 例子 ， 在 例子 中 ， 操 作 型 环 
境 中 有 一 个 活动 订单 文件 。 所 有 需要 活动 的 订单 都 存储 在 那里 。 数 据 仓 库存 储 着 10 年 内 的 订单 
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历史 。 订 单 历史 表 有 一 个 主 关 键 字 和 几 个 辅助 关键 字 。 只 有 对 以 后 的 分 析 有 用 的 数据 才 会 存储 
在 数据 仓库 中 。 订 单数 量 很 小 ， 因 此 ， 没 有 必要 将 数据 放 到 溢出 层 上 。 当 然 ， 一旦 订单 突然 增 
加 ， 那 么 ， 或 许 有 必要 转换 到 一 个 较 低 的 粒度 级 ， 也 可 能 需要 将 数据 转移 到 溢出 存储 器 。 


制造 业 环 境 中 的 双重 粒度 


加 


10 年 的 订单 历史 







分 别 索 引 


闭 洁 


泸 酒肉 处 主 牙 姐 肥 
世 >>  ” 健 工 耳 





ER 


六 


图 4-10 订单 很 少 ， 不 需要 双重 粒度 
4.6.3 保险 业 环 境 中 的 粒度 级 别 


请 看 另外 的 一 个 例子 ， 如 图 4-11 所 示 ， 这 是 一 个 保险 公司 体系 结构 化 环境 中 数据 的 粒度 
转变 情况 。 保 险 金 支付 信息 收集 在 一 个 活动 文件 中 。 过 一 段 时 间 以 后 ， 这 些 信 息 被 传送 到 数 
据 仓 库 中 。 因 为 这 里 的 数据 相对 较 少 ， 不 需要 溢出 数据 。 然 而 ， 由 于 保险 金 支付 的 定期 性 特 
点 ， 支 付 数据 是 作为 一 个 数组 的 一 部 分 存放 在 数据 仓库 中 的 。 


保险 业 环境 中 的 双重 粒度 
10 年 的 保险 金 记录 历史 





保险 金 支付 记录 (活动 ) 





图 4-11 由 于 保险 金 支 付 记录 数量 很 少 ， 没 有 必要 采用 双重 粒度 ; 
并 且 由 于 保险 金 记 账 非常 有 规律 ， 因 此 可 以 创建 数据 数组 
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作为 保险 业 环 境 中 的 体系 结构 的 另 一 个 例子 ， 考 虑 如 图 4-12 所 示 的 保险 索赔 信息 。 在 当 
前 的 索赔 系统 中 〈 图 中 环境 的 操作 型 部 分 ) ， 存 储 了 大 量 的 有 关 索 赔 的 详细 数据 。 当 一 个 索赔 
已 解决 (或 已 确定 不 予以 解决 )， 或 者 索赔 隔 了 好 长 时 间 还 未 办 理 ， 这 个 索赔 的 信息 被 传送 到 
数据 仓库 中 。 在 传送 时 ， 以 多 种 方式 对 索赔 信息 进行 汇总 一 一 按 代理 和 月 、 按 索赔 类 型 和 月 ， 
等 等 。 在 一 个 更 低 的 细节 级 上 ， 溢 出 存储 器 中 以 无 限期 方式 对 索赔 信息 进行 保存 。 就 像 其 他 
儿 个 例子 ， 当 数据 传送 到 溢出 存储 器 时 ， 只 有 那些 以 后 有 可 能 用 到 的 数据 才 会 被 保留 (这些 


数据 是 出 现在 操作 型 环境 中 的 大 部 分 信息 )。 


10 年 内 按 月 的 代理 /索赔 


保险 业 环境 中 的 双重 粒度 



















总 金额 
索赔 解决 次 数 


10 年 内 按 月 的 代理 /索赔 





索赔 类 型 
月 份 









总 索赔 次 数 
总 金额 

单 次 量 大 索赔 
索赔 解决 次 数 


















六 六 车 渤 容 关 漆 冲 尖 入 卫 济 代 芭 
滴 冰 革 部 澡 测 生 淹 实 党 委 ho 
Ei 站 闪避 注 装 23 
天 妇 叶 和 如 禾 位 


图 4-12 数据 仓库 的 轻 度 汇总 部 分 中 的 索赔 信息 是 按 非 主 关键 字汇 总 的 。 
索赔 信息 必须 在 数据 仓库 体系 结构 中 的 真实 档案 部 分 无 限期 存放 
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4.7 填充 数据 集 市 


选择 数据 仓库 中 的 数据 粒度 的 另 一 个 重要 的 考虑 因素 是 理解 数据 集 市 将 会 需要 的 数据 粒 
度 。 填 充 数据 集 市 是 数据 仓库 的 工作 。 不 同 的 数据 集 市 需要 不 同 地 看 待 数据 。 数 据 集 市 看 待 
数据 的 方式 之 一 是 通过 粒度 的 形式 。 

存在 于 数据 仓库 中 的 数据 粒度 必须 是 任何 数据 集 市 所 需要 的 数据 中 的 最 小 粒度 。 换 名 话 
说 ， 为 了 合适 地 填充 所 有 的 数据 集 市 ， 数 据 仓库 中 的 数据 必须 在 一 个 所 有 数据 集 市 所 需要 的 
最 低 的 粒度 水 平 上 。 数 据 仓库 中 的 数据 于 是 成 为 DSS 分 析 环 境 的 最 小 公分 母 。 


4.8 小 结 


为 体系 结构 化 环境 选择 一 个 适当 的 粒度 级 别 是 成 功 的 关键 。 选 择 粒度 级 别 的 一 般 方 法 是 
利用 常识 。 首 先 建立 数据 仓库 的 一 小 部 分 ， 并 让 用 户 访问 这 些 数 据 。 然 后 仔细 聆听 用 户 的 意 
见 ， 根 据 他 们 的 反馈 意见 对 粒度 级 别 做 适当 的 调整 。 

最 坏 的 想法 是 想 要 事先 设计 好 所 有 的 粒度 级 别 ， 再 进行 数据 仓库 的 建造 。 即 使 是 在 最 好 
的 情况 下 ， 有 50% 的 设计 是 正确 的 ， 这 个 设计 就 已 经 成 功 了 。 数 据 仓库 环境 的 特点 就 是 只 有 
当 DSS 分 析 员 实际 看 到 了 报表 之 后 ， 才 能 想像 出 哪些 是 他 们 真正 需要 的 。 

粒度 设计 的 过 程 始 于 对 数据 仓库 在 一 年 时 间 和 五 年 时 间 内 所 能 达到 的 大 小 的 一 个 粗略 估 
测 。 一 旦 这 个 粗略 估 测 完成 之 后 ， 设 计 者 就 可 以 得 知 粒度 应 该 细 到 什么 程度 。 此 外 ， 利 用 这 
个 估 测 还 可 以 得 出 是 否 需 要 考虑 使 用 溢出 存储 器 。 

数据 仓库 环境 中 有 一 个 非常 重要 的 反馈 循环 。 建 造 数据 仓库 的 第 一 次 循环 设计 完成 后 ， 
数据 体系 结构 设计 人 员 认 真 聆 听 最 终 用 户 的 反馈 意见 ， 并 根据 这 些 意见 做 出 调整 。 

要 考虑 的 另 一 个 重要 问题 是 需要 从 数据 仓库 中 获取 数据 的 不 同体 系 结构 实体 所 需 的 粒度 
级 别 。 当 数据 转移 到 溢出 存储 器 时 ， 即 从 磁盘 存储 器 转移 到 海量 备用 存储 器 时 ， 粒 度 可 以 与 
期 望 的 一 样 低 。 如 果 不 使 用 溢出 存储 器 ， 当 存在 大 量 的 数据 时 ， 设 计 人 员 对 粒度 级 别 的 选择 
就 会 受到 约束 。 

要 使 溢出 存储 器 正常 运行 ， 有 两 种 软件 是 必需 的 : 管理 磁盘 环境 与 海量 备用 存储 环境 之 
间 数 据 流动 的 跨 介质 存储 管理 器 (CMSM) 和 数据 活动 监控 器 。 数 据 活 动 监控 器 用 来 确定 哪 
些 数 据 应 当 放 到 溢出 存储 器 中 和 哪些 应 当 留 在 磁盘 上 。 
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在 很 多 方面 ， 数 据 仓库 比 其 操作 型 前 身 (数据 库 ) 需要 的 一 些 技术 特性 更 简单 。 数 据 仓库 
中 没有 联机 的 数据 更 新 ; 锁定 和 完整 性 需要 也 非常 少 ， 而 且 对 于 远程 处 理 接口 的 需要 也 只 是 
最 基本 的 ， 等 等 。 但 是 数据 仓库 仍 有 许多 技术 上 的 需求 。 这 一 章 就 阐述 一 下 这 些 方面 的 要 求 。 


5.1 管理 大 量 数据 


在 数据 仓库 技术 以 前 ，TB (Terabytes， 万 亿 字 节 ) 和 PB (Petabytes， 千 万 亿 字 节 ) 这 样 
的 术语 是 不 为 人 所 知 的 。 数 据 的 容量 是 以 MB 和 GB 来 度量 的 。 在 数据 仓库 技术 出 现 以 后 ， 所 
有 的 概念 全 改变 了 。 原 先 很 大 的 数量 显得 微不足道 了 。 因 为 数据 仓库 要 求 在 同一 环境 中 要 混 
全 和 放 向 和 计生 于 计 ， 作 全 全 证 生机 这 二 下 于 手下 人 计 汪 计 ， 人 二 企 了 时 最 和 

， 影 响 到 数据 仓库 技术 的 各 个 方面 。 认 清 这 点 之 后 ， 对 于 数据 仓库 来 说 ， 第 一 个 也 是 最 重 
要 的 技术 项 求 就 是 能 够 管理 大 量 的 类 如 图 5-1 所 示 。 有 许多 管理 大 量 数据 的 方法 ， 并 且 ， 
在 大 规模 的 数据 仓库 环境 中 ， 会 使 用 多 种 管理 大 量 数据 的 方法 。 


第 1 个 技术 需求 一 -管理 大 [9 [9 加] 

量 数据 的 能 力 四] 局 
i 一 - 

口 


3 口 
第 2 个 技术 需求 一 一 能 够 管 Lo ee 5 


多 种 介质 


第 3 个 技术 需求 一 一 能 够 轻 索引 
松 容易 地 索引 和 监视 数据 


灶 
王 


报 

第 4 个 技术 需求 一 一 接 只 一 一 用 信 口 委 
各 种 不 同 的 技术 接收 和 传送 数据 。 一 

一 人 习 


图 5-1 对 支持 数据 仓库 的 技术 的 一 些 基 本 要 求 
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需要 用 许多 方法 来 管理 大 量 数据 一 一 通过 存储 在 处 理 器 和 存储 在 磁盘 中 的 数据 灵活 的 寻 
址 能 力 、 通 过 建立 索引 、 通 过 数据 的 外 延 、 通 过 有 效 管理 溢出 数据 等 等 方法 。 不 论 如 何 管理 
数据 ， 很 明显 有 两 个 根本 要 求 一 一 能 管理 大 量 数据 的 能 力 并 且 能 够 将 其 管理 好 的 能 力 。 有 一 
些 方法 可 以 用 来 管理 大 量 的 数据 但 很 笨拙 。 另 外 有 一 些 方法 则 能 以 一 种 有 效 而 精巧 的 方式 来 
管理 大 量 的 数据 。 要 使 管理 方法 有 效 ， 所 使 用 的 技术 一 定 要 同时 满足 容量 与 效率 的 要 求 。 

在 理想 的 情况 下 ， 数 据 仓 库 开 发 者 在 建造 数据 仓库 时 ， 假 定 所 使 用 的 技术 能 够 满足 处 理 
所 需求 数据 量 。 在 开发 和 实现 数据 仓库 的 时 候 ， 如 果 开 发 者 不 得 不 做 过 量 的 工作 ， 那 么 所 用 
的 基本 技术 就 存在 一 定 的 问题 。 当 技术 本 身 成 为 问题 时 ， 通 常会 选用 一 种 以 上 的 技术 。 如 果 
某 种 技术 具有 将 不 活跃 的 数据 移入 到 溢出 存储 器 的 能 力 ， 也 许 是 最 具有 战略 性 意义 的 。 

当然 ， 除 了 基本 的 技术 问题 和 效率 以 外 ， 存 储 和 处 理 的 费用 也 是 要 考虑 的 因素 。 


5.2 管理 多 种 介质 


为 了 能 有 效 和 划算 地 管理 大 量 数据 ， 数 据 仓库 中 的 基本 技术 应 该 能 够 解决 多 种 存储 介质 
的 问题 。 仅 仅 在 直接 存 取 存 储 设备 (DASD) 上 管理 一 个 成 熟 的 数据 仓库 是 不 够 的 。 下 面 给 出 
的 是 各 种 层次 级 别 的 存储 设备 的 存 取 速度 和 费用 的 情况 : 





主 存 非常 快 非常 贵 
扩展 内 存 非常 快 贵 
高 速 缓存 非常 快 贵 
DASD 快 适中 
磁带 不 快 不 贵 
近 线 存储 不 快 9 不 贵 
光盘 不 慢 不 贵 
缩微 胶片 慢 便宜 


由 于 存在 数据 仓库 中 的 数据 量 和 数据 的 访问 率 不 同 这 两 方面 的 因素 ， 所 以 一 个 满载 的 数 
据 仓 库 应 该 放 在 多 种 层次 的 存储 设备 上 。 


5.3 索引 和 监控 数据 


数据 仓库 的 本 质 就 是 能 够 支持 灵活 的 和 不 可 预测 的 数据 访问 。 这 要 求 能 够 对 数据 进行 
速 和 方便 的 访问 。 数 据 仓 库 中 的 数据 如 果 不 能 方便 、 有 效 地 建立 索引 ， 那 么 这 个 数据 仓库 就 
不 能 算是 成 功 的 。 当 然 ， 设 计 者 可 以 利用 许多 方法 来 使 数据 尽 可 能 地 灵活 ， 例 如 ， 在 不 同 的 
存储 介质 中 分 布 数据 和 数据 分 区 。 但 是 ， 这 些 存 放 数 据 技术 一 定 要 支持 方便 的 索引 ， 一 些 索 
引 技术 常常 是 有 用 的 ， 如 二 级 索引 、 稀 朴 索 引 、 动 态 索 引 、 临 时 索引 等 等 。 而 且 ， 建 立 和 使 
用 索引 的 费用 不 能 太 高 。 

闻 样 ， 数 据 仓 库 中 的 数据 也 应 能 随意 监控 。 而 且 ， 监 控 数 据 的 费用 不 能 太 高 ， 过 程 也 不 
能 太 复杂 。 在 需要 时 ， 监 控 程 序 应 能 随时 运行 。 与 事务 处 理 的 监控 不 同 ， 数 据 仓 库 活 动 的 监 
控 决 定 哪些 数据 被 使 用 了 ， 而 哪些 数据 没有 被 使 用 。 

监控 数据 仓库 中 的 数据 能 确定 很 多 因素 ， 包 括 : 

“是 否 需要 数据 重组 。 


号 ”找到 所 要 的 第 1 条 记录 不 快 ， 但 找到 该 块 中 所 有 其 他 记录 非常 快 。 
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* 索引 是 否 建立 得 不 恰当 。 

“是 否 有 太 多 或 不 足 数据 在 溢出 区 中 。 

* 数据 存 取 的 统计 成 分 。 

* 剩余 的 可 用 空间 。 

如 果 数 据 仓 库 技术 不 能 对 数据 仓库 中 的 数据 进行 方便 而 有 效 的 监控 ， 那 么 这 个 技术 是 不 
合适 的 。 


5.4 多 种 技术 的 接口 


数据 仓库 另 一 个 非常 重要 的 问题 是 能 够 用 各 种 不 同 的 技术 接收 和 传送 数据 。 数 据 从 操 
作 型 环境 和 ODS 中 传 入 数据 仓库 ， 从 数据 仓库 传 入 数据 集 市 、DSS 应 用 、 探 查 和 数据 挖掘 
数据 仓库 以 及 海量 备用 存储 设备 。 这 个 过 程 必须 是 流畅 且 容 易 进行 的 。 如 果 在 向 数据 仓库 
传送 数据 和 从 数据 仓库 传 出 数据 时 有 很 大 限制 ， 那 么 这 种 支持 数据 仓库 的 技术 实际 上 是 没 
有 用 的 。 

除了 要 能 高 效 而 且 方 便 地 使 用 以 外 ， 进 出 数据 仓库 的 接口 必须 能 够 在 批 模式 下 运行 。 接 
口 若 能 以 在 线 模式 运行 ， 是 很 吸引 人 的 ， 但 这 种 模式 不 是 非常 有 用 。 从 数据 到 达 操 作 型 环境 
开始 到 数据 准备 被 传 入 数据 仓库 这 段 时 间 内 ， 通 常 存在 一 段 静 止 期 。 因 为 这 个 延迟 ， 数 据 到 
数据 仓库 的 在 线 传送 过 程 几乎 是 不 存在 的 (与 到 第 1 类 ODS 的 在 线 传送 过 程 相反 )。 

不 同 技术 的 接口 要 求 考虑 如 下 几 个 因素 : 

“数据 能 否 很 容易 地 从 一 个 DBMS 传 送 到 另 一 个 DBMS? 

“数据 能 否 很 容易 地 从 一 个 操作 系统 传送 到 另 一 个 操作 系统 ? 

" 在 传送 过 程 中 数据 是 否 需要 改变 它 的 基本 格式 (EBCDIC，ASCII 等 等 ) ? 

“数据 多 维 空间 的 处 理 通道 能 否 容易 地 实现 ? 

“ 能 否 选 择 增 量 数据 传送 ， 比 如 变化 数据 捕获 (CDC ) ， 而 不 是 传送 整个 表 ? 

“数据 在 传送 到 其 他 的 环境 中 时 是 否 有 内 容 丢 失 ? 


5.5 程序 员 / 设 计 者 对 数据 存放 位 置 的 控制 


出 于 对 数据 访问 效率 和 更 新 的 考虑 ， 程 序 员 /设计 者 必须 在 物理 的 块 /页 一 级 上 对 数据 的 存 
放 进 行 特殊 控制 ， 如 图 5-2 所 示 。 

存放 数据 仓库 数据 的 技术 可 以 将 数据 放 到 任何 它 认为 合适 的 地 方 ， 只 要 该 项 技术 能 在 需 
要 时 明确 地 调整 就 行 。 如 果 该 项 技术 坚持 将 数据 存放 在 某 一 物理 位 置 而 不 允许 程序 员 对 其 进 
行 调整 ， 这 将 是 一 个 严重 的 错误 。 

程序 员 / 设 计 者 经 常安 排 数据 的 物理 存储 位 置 ， 使 之 适合 其 使 用 。 这 样 做 可 以 使 数据 访问 
更 加 经 济 。 


5.6 数据 的 并 行 存储 和 管理 


数据 仓库 中 数据 管理 的 最 强大 的 特征 之 一 是 数据 的 并 行 存储 和 管理 。 当 数据 并 行 存储 和 
管理 时 ， 可 以 极 大 提高 性 能 。 而 且 ， 用 并 行 的 方法 可 管理 的 数据 量 将 显著 增长 通常， 假定 
对 数据 的 访问 是 等 概率 的 话 ， 性 能 的 提高 与 数据 所 分 布 的 物理 设备 的 多 少 成 反比 。 

整个 数据 的 并 行 存 储 和 管理 是 非常 复杂 的 ， 通 常 ， 当 数据 能 够 并 行 管理 时 ， 管 理 数据 的 
容量 是 没有 限制 的 。 或 者 说 ， 如 果 有 限制 的 话 ， 也 是 经 济 上 的 限制 而 不 是 技术 上 的 。 
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设计 者 
第 5 个 技术 需求 一 一 允许 设计 者 / 

开发 者 在 块 /页 的 级 别 上 以 一 种 最 之 册 六 向 加 加 加 加 本 加 痢 加 国 
佳 形式 决定 数据 的 物理 存放 位 轩 


第 6 个 技术 需求 一 一 能 够 并 行 管 
理 数据 


元 数据 
第 7 个 技术 需求 一 一 有 很 好 的 元 数据 
控制 


第 8 个 技术 需求 一 数据 仓库 要 有 多 x 
种 语言 接口 Wa 


图 5-2 数据 仓库 的 另外 一 些 技术 需求 
元 数据 管理 





如 第 3 章 所 提 到 ， 由 于 各 种 各 样 的 原因 ,， 元 数据 在 数据 仓库 中 比 在 传统 操作 型 环境 中 更 重 
要 。 元 数据 之 所 以 重要 是 由 于 与 数据 仓库 相关 的 开发 生命 周期 与 传统 开发 生命 周期 在 根本 上 
是 不 同 的 。 数 据 仓 库 是 在 二 种 启发 式 、 选 代 式 的 开发 生命 周期 上 运作 的 。 为 了 更 加 有 效 ， 数 
据 仓库 的 用 户 应 该 能 够 对 准确 和 实时 的 元 数据 进行 访问 。 如 果 没 有 一 个 好 的 元 数据 源 支 持 运 
作 的 话 ，DSS 分 析 人 员 的 工作 就 非常 困难 。 典 型 地 ， 数 据 仓库 的 语言 接口 应 该 包括 以 下 儿 个 


方面 : 
。 数 据 仓 库 的 表 结 构 。 
。 数 据 仓 库 的 表 属 性 。 
。 数 据 仓库 的 源 数据 (记录 系统 )。 
。 从 记录 系统 到 数据 仓库 的 映射 。 
。 数 据 模型 的 说 明 。 
。 抽 取 日 志 。 
。 访 问 数据 的 公用 例 行 程序 。 
。 数 据 的 定义 /描述 。 
。 数 据 单元 之 间 的 关系 。 


值得 注意 的 是 元 数据 有 多 种 不 同 的 形式 。 一 种 形式 是 业务 元 数据 ， 另 一 种 是 技术 元 数据 。 
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业务 元 数据 就 是 对 业务 人 员 有 用 或 有 价值 的 元 数据 。 技 术 元 数据 就 是 对 技术 人 员 有 用 或 有 价 
值 的 元 数据 。 

另 一 个 要 考虑 的 元 数据 就 是 每 一 个 业务 智能 环境 的 技术 都 有 其 自己 的 元 数据 。 报 表 作 者 ， 
业务 智能 工具 ，ODS 环 境 和 ETL 都 有 其 自己 的 元 数据 。 


5.7 语言 接口 


数据 仓库 应 该 有 丰富 的 语言 规定 。 程 序 员 和 DSS 最 终 用 户 用 于 访问 数据 仓库 中 数据 的 语 
言 应 该 易于 操作 而 且 稳 健 。 没 有 一 种 稳健 的 语言 接口 ， 进 入 数据 仓库 和 访问 其 中 的 数据 就 非 
常 困难 。 而 且 ， 访 问 数据 仓库 的 语言 一 定 要 是 高 效 的 。 

一 般 ， 数 据 仓库 的 语言 接口 需要 满足 以 下 几 点 : 

。 能 够 一 次 访问 一 组 数据 。 

* 能 够 一 次 访问 一 条 记录 。 

。 特别 要 保证 ， 为 了 满足 某 个 查询 要 求 能 够 支持 一 个 或 多 个 索引 。 

。 有 SQL 接口 。 

“ 能够 插入 、 删 除 、 更 新 数据 。 

实际 上 ， 根 据 所 进行 的 操作 的 不 同 ， 有 不 同类 型 的 语言 。 这 些 语言 包括 数据 挖掘 和 数据 
探查 时 数据 的 统计 分 析 语 言 、 数 据 的 简单 访问 语言 、 处 理 预制 查询 的 语言 、 优 化 接口 图 形 特 
性 的 语言 。 这 些 语 言 都 有 它们 各 自 的 优 缺 点 。 

由 于 SQL 语言 的 复杂 性 ， 强 烈 需 要 一 种 语言 接口 ， 这 个 接口 能 够 创建 和 管理 SQL 语言 角 
查询 ， 以 至 最 终 用 户 不 需要 实际 了 解 或 是 使 用 SQL 语言 。 换 句 话 来 说 ， 语 言 接口 不 应 以 SQL 
语言 的 形式 出 现 ， 而 是 以 更 好 更 优 的 组 织 形式 出 现在 普通 最 终 用 户 前 。 

在 大 多 数 公司 内 部 ,仅仅 只 有 技术 人 员 才 直接 写 SQL 查 询 语 句 。 而 所 有 其 他 的 入 ， 包 括 
最 终 用 户 ， 需 要 一 种 比 SQL 语 言 更 加 简单 的 数据 接口 。 


5.8 ”数据 的 有 效 装载 


数据 仓库 的 一 个 重要 的 技术 能 力 就 是 能 够 高 效 地 载 和 数据 ， 如 图 5-3 所 示 。 不 管 什么 地 方 ， 
对 于 高 效 载 人 要 求 都 是 重要 的 ， 对 大 型 的 数据 仓库 更 是 如 此 。 

向 数据 仓库 中 载 入 数据 有 两 种 基本 的 方式 ， 通 过 一 个 语言 接口 一 次 载 入 一 条 记录 ， 或 者 使 
用 一 种 工具 全 体 批 量 地 装 入 。 通 常 ， 通 过 工具 装 入 数据 的 方式 是 比较 快 的 。 另 外 ， 在 装载 数据 
的 同时 ， 索 引 也 必须 高 效 地 装 入。 有 些 时 候 ， 为 了 平衡 工作 负载 ， 数 据 索 引 的 装载 可 以 推迟 。 

当 数 据 装载 的 容量 负荷 成 为 “个 问题 时 ， 经 常 采用 并 行 装载 。 出 现 这 种 情况 时 ， 要 装载 
的 数据 被 分 成 几 个 工作 流 。 一 旦 对 输入 的 数据 进行 划分 以 后 ， 每 一 个 工作 流 独 立 于 其 他 工作 
流 执行 。 由 于 将 数据 分 为 几 个 工作 流 ， 装 载 数据 所 消耗 的 总 时 间 就 降低 了 (粗略 来 讲 )。 

另 一 种 相关 的 高 效 装载 大 量 数据 的 方法 是 在 装载 之 前 先 对 数据 进行 缓冲 处 理 。 通 常 来 说 ， 
大 量 的 数据 在 抽取 /转换 /装载 (ETL) 软件 处 理 之 前 被 集中 在 一 起 放 人 缓冲 区 。 在 传送 到 ETL 
层 之 前 ， 需 要 对 缓冲 区 中 的 数据 进行 合并 (编辑 、 汇 总 ， 等 等 )。 只 有 当 数 据 量 很 大 而 且 处 理 
的 复杂 性 很 高 时 ， 才 需要 对 数据 进行 缓冲 处 理 。 设 置 缓冲 区 的 另 一 种 情况 是 协调 合并 数据 的 
需要 。 假 设 来 自 源 ABC 的 数据 在 上 午 9 时 即 可 进入 到 数据 仓库 ， 但 是 ,来 自 源 BCD 的 数据 必须 
和 来 自 源 ABC 的 数据 相合 并 。 然 而 ， 来 自 源 BCD 的 数据 在 下 午 6 时 才能 到 达 。 所 以 在 处 理 数据 
之 前 ， 来 自 源 ABC 的 数据 必须 在 缓冲 区 内 等 待 来 自 源 BCD 的 数据 的 到 来 。 
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第 9 个 技术 需求 一 一 能 够 高 效 地 
装载 数据 仓库 


第 10 个 技术 需求 一 有 效 地 
使 用 索引 bese 





第 11 个 技术 需求 一 一 能 够 以 压 








缩 的 方式 存放 数据 
第 12 个 技术 需求 一 一 支持 复 XXXX 
合 全权 
OXKXK 
图 5-3 进一步 的 技术 需求 
5.9 有 效 利用 索引 


数据 仓库 技术 不 仅 必 须 能 够 方便 地 支持 新 索引 的 创建 和 载 入 ， 而 且 必 须 能 够 高 效 地 访问 
这 些 索 引 。 数 据 仓库 技术 能 以 如 下 儿 种 方式 支持 高 效 的 索引 访问 : 

“用 位 图 。 

“用 多 级 索引 。 

“将 部 分 或 全 部 索引 装 和 内存 。 

。 当 被 索引 数据 的 次 序 允 许 压缩 时 对 索引 项 进行 压缩 。 

。 创建 选 择 索 引 和 范围 索引 。 

除了 索引 的 高 效 存储 和 扫描 以 外 ， 在 主 存 储 器 层次 上 对 数据 的 后 续 访问 也 很 重要 。 不 幸 
的 是 ， 对 主 存 数据 访问 的 优化 并 不 像 对 索引 数据 的 访问 一 样 有 那么 多 选择 。 


5.10 数据 压缩 


数据 仓库 环境 的 成 功 之 处 在 于 能 够 管理 大 量 的 数据 。 达 到 这 一 目标 的 主要 原因 是 数据 压 
缩 。 当 数据 压缩 后 ， 便 能 存储 在 很 小 的 空间 中 。 另 外 ， 当 数据 被 存储 到 很 小 的 空间 中 时 ， 对 
数据 的 访问 也 就 更 加 有 效 。 数 据 压缩 和 数据 仓库 的 环境 尤为 相关 ， 因 为 数据 在 进入 数据 仓库 
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环境 中 后 ， 很 少 会 被 更 新 。 数 据 仓 库 中 的 数据 的 稳定 性 减少 了 在 更 新 被 紧密 压缩 的 数据 时 会 
出 现 的 空间 管理 问题 。 

数据 以 压缩 的 形式 存储 数据 所 带 来 的 另 一 个 好 处 是 程序 员 可 以 充分 发 挥 给 定 VO 资 源 的 功 
效 。 当 然 ， 针 对 数据 的 访问 ， 会 有 一 个 相应 的 解压 缩 的 问题 。 虽 然 解 压缩 需要 一 定 的 开销 ， 
但 这 个 开销 不 是 VO 资源 的 开销 ， 而 是 CPU 资 源 的 开销 。 通 常 ， 在 数据 仓库 环境 中 ，I/O 资 源 比 
CPU 资源 少 得 多 ， 因 此 ， 数 据 的 解压 缩 并 不 是 一 个 主要 的 问题 。 


5.11 复合 主键 


在 数据 仓库 环境 中 ， 一 种 简单 而 又 重要 的 技术 需求 就 是 能 够 支持 复合 主键 。 这 种 主键 在 
数据 仓库 环境 中 随处 可 见 ， 主 要 是 因为 数据 仓库 中 数据 的 时 变 特性 ， 以 及 形成 数据 仓库 的 原 
子 数据 中 主键 /外 键 关 系 相当 常见 的 关系 。 


5.12 变 长 数据 


数据 仓库 环境 的 另 一 个 简单 而 又 重要 的 技术 需求 是 有 效 地 管理 变 长 数据 的 能 力 ， 如 图 5-4 
所 示 。 变 长 数据 如 果 经 常 更 新 和 改变 ， 就 会 带 来 严重 的 性 能 问题 。 但 当 变 长 数据 很 稳定 ， 例 
如 在 数据 仓库 中 时 ， 就 没有 固有 的 性 能 问题 . 








ME 一 
第 13 个 技术 需求 一 -有效 地 管理 ma 人 人 


第 14 个 技术 需求 一 一 能 够 按照 需 
要 开启 和 关闭 锁 管 理 程序 ， 能 够 
在 程序 员 级 显 式 控制 锁 管理 程序 





第 15 个 技术 需求 一 一 能 够 进行 
单独 索引 处 理 


O 


第 16 个 技术 需求 一 一 能 够 从 一 批 
介质 上 将 数据 快速 、 完 全 地 恢复 O OQ 


图 5-4 数据 仓库 还 需要 的 另外 一 些 技术 
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另外 ， 由 于 数据 仓库 中 数据 的 多 样 性 ， 必 须 对 数据 的 变 长 结构 进行 支持 。 
5.13 ”加 锁 管 理 


数据 库 技术 的 一 个 基本 部 分 是 加 锁 管 理 。 加 锁 管 理 程序 确保 没有 两 个 或 两 个 以 上 的 用 户 
在 同一 时 刻 对 同一 条 记录 进行 更 新 。 但 在 数据 仓库 中 ， 并 没有 更 新 操作 。 取 而 代 之 的 是 ， 数 
据 存 储 在 一 系列 的 快照 记录 中 。 当 数据 改变 时 ， 将 会 加 入 一 个 新 的 快照 记录 ， 而 不 是 进行 数 
据 更 新 。 

应 用 加 锁 管 理 程 序 所 产生 的 一 个 影响 是 它 消耗 了 相当 数量 的 资源 ， 即 使 数据 没有 被 更 新 
也 是 一 样 。 一 直 将 加 锁 管 理 程 序 处 于 运行 状态 会 消耗 很 多 资源 。 因 此 ， 为 了 使 数据 仓库 环境 
更 加 合理 ， 需 要 有 选择 地 将 加 锁 管理 程序 打开 或 关闭 。 


5.14 只 涉及 索引 的 处 理 


数据 库 管理 系统 的 一 个 基本 特征 是 能 够 进行 只 涉及 索引 的 处 理 。 在 许多 情况 下 ， 只 查看 
一 个 索引 (或 一 些 索 引 )， 用 不 着 查看 数据 的 最 初 数据 源 就 可 以 满足 某 些 请 求 ， 因 而 非常 有 效 。 
但 并 不 是 所 有 的 DBMS 都 能 智能 地 辨别 索引 是 否 能 满足 请 求 。 

如 果 在 索引 中 查找 数据 的 请 求 可 以 明确 地 表示 出 来 ， 而且 /或 者 允许 查询 用 户 指明 已 经 指 
定 了 一 个 这 样 的 索引 查询 的 话 ， 则 数据 仓库 环境 中 的 最 好 的 技术 应 该 能 以 独占 方式 在 索引 中 
查找 数据 。 这 样 ，DBMS 技 术 必须 能 为 DSS 最 终 用 户 提供 这 种 选择 ， 让 用 户 指明 一 个 索引 查询 
能 否 被 执行 ， 以 及 该 查询 在 这 种 方式 下 能 否 得 到 查询 结果 。 


5.15 快速 恢复 


数据 仓库 环境 的 一 个 简单 (而 重要 的 ) 技术 特性 ， 是 能 够 从 非 直 接 存 取 存储 设备 中 快速 
地 恢复 一 个 数据 仓库 表 。 当 可 以 从 二 级 存储 设备 上 进行 恢复 时 ， 可 能 节约 大 量 的 开支 。 如 果 
不 具备 从 二 级 存储 设备 上 快速 恢复 数据 的 能 力 ， 通 常 的 做 法 是 将 DASD 的 数目 增加 一 倍 ， 然 后 
将 其 中 的 一 半 作 为 恢复 /复原 的 存储 区 。 

快速 恢复 能 力 应 该 不 仅 能 恢复 全 部 数据 库 ， 还 能 恢复 部 分 数据 库 。 数 据 仓 库 中 所 具有 的 
数据 的 大 小 决定 了 只 有 数据 库 的 一 部 分 能 被 恢复 。 

男 外 ，DBMS 需 要 尽 可 能 地 以 一 种 自动 的 模式 去 侦 测 发 生 的 错误 。 把 数据 损坏 检测 的 任 
务 留 给 最 终 用 户 是 非常 不 明智 的 。 另 外 一 个 比较 有 用 的 技术 是 创建 用 来 判定 哪些 数据 已 经 被 
损坏 的 诊断 工具 的 能 力 。 诊 断 工具 必须 能 在 大 量 数据 中 工作 。 


5.16 其 他 的 技术 特征 


这 里 所 讨论 的 数据 仓库 特征 只 是 最 重要 的 一 些 。 有 许多 其 他 的 特征 ， 但 由 于 数量 太 多 而 
不 便 详 述 。 

值得 注意 的 是 ， 传 统 的 事务 处 理 DBMS 中 的 许多 其 他 DBMS 技 术 特 性 在 用 于 支持 数据 仓库 
环境 时 ， 只 能 起 到 很 小 的 作用 (如果 它们 还 能 起 作用 的 话 )。 这 样 的 一 些 特 征 包括 

。 事 务 完整 性 。 

* 高 速 缓存 。 

， 行 /页 级 的 锁定 。 

。 参 照 完 整 性 。 
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“数据 视图 。 

* 部 分 块 载 入 。 

事实 上 ， 不 论 何 时 在 数据 仓库 环境 中 使 用 基于 事务 的 DBMS ， 由 于 这 些 特性 将 会 阻碍 数 
据 仓库 中 高 效 的 数据 处 理 ， 所 以 较 好 的 方法 是 将 这 些 特性 关闭 。 


5.17 DBMS 类 型 和 数据 仓库 


随 着 数据 仓库 技术 的 出 现 ， 人 们 认识 到 DSS 是 现代 信息 系统 基本 结构 不 可 缺少 的 一 部 分 ， 
一 类 新 的 DBMS 产 生 了 。 这 类 新 的 DBMS 可 以 称 为 “数据 仓 靡 专用 数据 摩 管理 系统 "。 数 据 仓 
库 专 用 数据 库 管 理 系统 是 特别 为 数据 仓库 技术 和 DSS 处 理 而 优化 设计 的 。 

在 数据 仓库 技术 以 前 ， 只 存在 事务 处 理 ，DBMS 系 统 为 这 种 处 理 类 型 的 需要 提供 支持 。 
但 是 ， 在 数据 仓库 中 的 处 理 是 截然 不 同 的 。 数据 仓库 环境 中 的 处 理 类 型 可 以 概括 为 装载 和 访 
问 过 程 。 数 据 从 原来 操作 型 数据 环境 和 ODS 中 集成 、 转 换 和 装载 到 数据 仓库 中 去 。 一 旦 进入 
数据 仓库 ， 集 成 的 数据 就 在 那里 访问 和 分 析 。 在 数据 仓库 中 ， 数 据 一 旦 被 装载 ， 通 常 是 不 更 
新 的 。 如 果 需 要 对 数据 仓库 更 正和 调整 的 话 ， 也 是 在 对 数据 仓库 数据 没有 分 析 操作 的 空闲 时 
间 进 行 。 而 且 ， 这 些 改变 也 是 通过 加 入 一 个 当前 的 数据 快照 来 完成 。 

传统 的 事务 处 理 数据 库 环 境 和 数据 仓库 环境 的 另 一 个 重要 的 区 别 在 于 ， 数 据 仓 库 环境 中 
有 很 多 的 数据 ， 比 一 般 的 操作 型 环境 中 要 多 得 多 ， 以 万 亿 或 千 万 亿 计 ， 而 一 个 通用 的 DBMS 
通常 管理 下 的 传统 事务 处 理 数 据 库 中 的 数据 要 少 得 多 。 数 据 仓库 要 管理 大 量 的 数据 ， 是 因为 
它们 包括 如 下 内 容 : 

* 粒 化 的 原子 细节 。 

* 历史 信息 。 

。 细 节 和 汇总 数据 。 

谈 到 基本 的 数据 管理 功能 ， 数 据 仓 库 用 与 标准 的 操作 型 DBMS 非 常 不 同 的 一 组 参数 进行 
优化 。 

传统 的 通用 DBMS 和 数据 仓库 专用 DBMS 的 第 一 个 也 是 最 重要 的 区 别 在 于 数据 更 新 是 如 何 
进行 的 。 传 统 的 通用 DBMS 必 须 将 记录 级 的 、 基 于 事务 的 更 新 作为 一 个 正常 的 操作 部 分 。 由 
于 记录 级 、 基 于 事务 的 数据 更 新 是 通用 DBMS 的 一 般 特 征 ， 所 以 它 必 须 提 供 以 下 功能 : 

。 锁定 。 

* 提交。 

。 检 查 点 。 

。 日 志 磁 带 处 理 。 

。 死 锁 。 

， 逆 向 恢复 。 

不 仅 这 些 特征 确实 已 成 为 DBMS 一 个 常规 部 分 ， 它 们 的 开销 也 是 巨大 的 。 有 趣 的 是 ， 当 
DBMS 不 使 用 时 也 要 耗费 这 笔 开 销 。 换 名 话说 ， 当 通用 DBMS 仅 执行 只 读 操 作 时 ，DBMS 也 至 
少 要 提供 更 新 和 锁定 的 开销 (取决 于 DBMS )。 根 据 不 同 的 通用 DBMS ， 更 新 所 需 的 开销 能 不 
同 程度 地 最 小 化 ， 但 不 能 完全 没有 。 而 对 于 一 个 数据 仓库 专用 的 DBMS 来 说 ,不 用 支付 任何 
更 新 所 需 的 开销 。 

通用 DBMS 和 数据 仓库 专用 DBMS 之 间 的 第 二 个 主要 区 别 是 对 基本 数据 的 管理 的 不 同 。 对 
于 通用 的 DBMS 来 说 ， 对 数据 在 块 级 上 的 管理 要 包括 一 些 附 加 的 空间 、 这 些 空间 是 用 于 以 后 
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更 新 和 播 入 数据 时 块 的 扩展 。 一 般 情 况 下 ， 这 些 空间 是 自由 空间 。 对 于 通用 DBMS ， 自 由 空 
间 可 能 占 到 50%。 对 于 数据 仓库 专用 的 DBMS ， 根 本 就 不 需要 自由 空间 ， 因 为 数据 一 旦 装 入 到 
数据 仓库 后 是 不 需要 更 新 的 ， 也 就 没有 物理 块 扩展 的 需要 。 事 实 上 ， 给 定 了 数据 仓库 中 要 管 
理 的 数据 量 后 ， 留 下 以 后 将 永远 不 会 用 到 的 大 量 空间 是 没有 任何 意义 的 。 

数据 仓库 和 通用 环境 之 间 的 另 一 个 相关 的 区 别 反映 在 不 同类 型 的 DBMS 上 ， 是 素 引 的 区 
别 。 通 用 DBMS 环 境 限制 在 有 限 数量 的 索引 ， 这 个 限制 是 因为 当 有 数据 的 更 新 和 插入 时 ， 索 
引 本 身 需 要 空间 和 数据 管理 。 然 而 ， 在 数据 仓库 环境 中 没有 数据 的 更 新 ， 却 有 必要 对 数据 的 
访问 进行 优化 ， 也 有 多 种 索引 的 必要 (和 机 会 )。 事 实 上 ， 数 据 仓库 相对 于 操作 型 的 、 面 向 更 新 
的 数据 库 来 说 ， 能 够 应 用 更 稳健 和 更 完善 的 索引 结构 。 

除了 索引 、 更 新 和 物理 块 级 上 的 基本 数据 管理 以 外 ， 在 数据 管理 能 力 和 策略 上 ， 通 用 
DBMS 和 数据 仓库 专用 DBMS 之 间 还 存在 其 他 一 些 基 本 区 别 。 其 中 ， 这 两 种 类 型 的 DBMS 最 基 
本 的 区 别 可 能 是 在 物理 上 以 优化 方式 组 织 数据 以 适应 不 同类 型 访问 的 能 力 。 通 用 DBMS 在 物 
理 上 组 织 数 据 是 为 了 优化 事务 的 访问 和 处 理 。 以 这 种 方式 进行 的 组 织 使 得 许多 不 同类 型 的 数 
据 可 以 根据 一 个 公共 关键 字 聚 集 起 来 ， 并 能 有 效 地 通过 1 次 或 2 次 LO 访问 。 最 适合 于 信息 型 访 
问 的 数据 通常 具有 一 个 区 别 很 大 的 物理 描述 。 最 适合 于 信息 型 访问 的 数据 是 经 过 组 织 的 ， 可 
以 使 对 同一 类 型 数据 的 许多 不 同 值 能 够 通过 1 次 或 2 次 物理 IO 高 效 地 进行 访问 。 

数据 能 够 在 物理 上 得 到 优化 以 便于 事务 访问 或 DSS 访问 ， 但 无 法 同时 做 到 这 两 点 。 通 用 
的 、 基 于 事务 的 DBMS 只 针对 事务 访问 对 数据 进行 优化 ， 而 数据 仓库 专用 的 DBMS 则 针对 DSS 
访问 和 分 析 在 物理 上 对 数据 进行 优化 。 


5.18 改变 DBMS 技 术 


信息 仓库 需要 考虑 的 一 个 有 趣 的 因素 是 ， 在 数据 仓库 数据 已 经 载 和 以后， DBMS 技 术 发 
生变 化 。 有 以 下 几 个 原因 说 明 进行 这 种 改变 : 

。 当 今 可 用 的 DBMS 技 术 ， 在 数据 仓库 首次 载 人 数据 时 并 不 一 定 适合 。 

“数据 仓库 大 小 已 经 增长 到 一 定 的 程度 ， 要 求 提 出 新 的 技术 方法 。 

“对 数据 仓库 的 使 用 逐步 增加 ， 也 发 生 了 很 多 变化 ， 使 得 当前 的 数据 仓库 的 DBMS 技 术 不 

满足 要 求 了 。 

*。 需 要 不 时 地 对 基本 的 DBMS 选 择 进 行 审 查 。 

是 否 应 考虑 找 一 种 新 的 DBMS 技 术 ? 要 考虑 的 因素 是 什么 ?以 下 的 几 点 非常 重要 : 

。 新 的 DBMS 技 术 是 否 满足 可 预知 的 需求 ? 

。 从 有 旧 的 DBMS 技 术 向 新 的 DBMS 技 术 的 转换 应 该 怎样 去 做 ? 

* 转换 的 程序 应 该 怎样 改变 ? 

所 有 的 这 些 考 虑 因素 中 ， 最 后 一 个 是 最 令 人 头痛 的 。 即 使 在 最 好 的 情况 下 ， 试 图 去 改变 
转换 程序 也 是 一 项 很 复杂 的 工作 。 

事实 上 , 一旦 数据 仓库 已 经 采用 了 一 个 DBMS ， 在 以 后 某 个 时 间 进 行 更 改 是 可 能 的 。 但 
这 种 情况 在 事务 处 理 的 过 程 中 是 永远 不 可 能 的 ， 因 为 一 旦 采用 了 一 个 DBMS ， 只 要 事务 处 理 
系统 仍 在 运行 当中 ， 这 个 DBMS 就 必须 保持 不 动 。 


5.19 多 维 DBMS 和 数据 仓库 
一 项 在 数据 仓库 中 经 常 讨 论 的 技术 是 多 维 数据 库 管 理 系 统 处 理 〈《 有 时 称 为 DLAP 处 理 )。 
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多 维 数据 库 管理 系统 或 者 数据 集 市 提供 了 一 种 信息 系统 结构 ， 这 种 结构 可 以 使 企业 灵活 地 对 
数据 进行 访问 ， 可 以 用 多 种 方法 对 数据 进行 切片 、 分 块 ， 动 态 地 考察 汇总 数据 和 细节 数据 之 
间 的 关系 。 多 维 DBMS 为 最 终 用 户 提供 了 灵活 性 和 控制 功能 。 为 此 ， 它 非常 适合 于 DSS 环境 。 
如 图 5-5 所 示 ， 多 维 DBMS 和 数据 仓库 之 间 存 在 着 非常 有 趣 和 互补 的 关系 。 

数据 仓库 中 的 细节 数据 为 多 维 DBMS 提 供 了 非常 稳健 和 方便 的 数据 源 。 因 为 多 维 DBMS 需 
要 定期 地 刷新 ， 为 此 ， 数 据 要 定期 从 数据 仓库 中 导入 到 多 维 DBMS 中 。 由 于 历史 应 用 数据 在 
进入 数据 仓库 时 被 集成 ， 多 维 DBMS 就 不 再 需要 从 操作 型 环境 中 抽取 与 集成 它 所 需要 的 数据 。 
另外 ， 数 据 仓 库 在 最 低级 别 上 保存 了 数据 ， 这 样 就 能 为 那些 使 用 多 维 DBMS 的 用 户 在 需要 的 
时 候 进 行 的 低级 别 分 析 提供 “基础 ”数据 。 

可 能 有 人 会 认为 多 维 DBMS 技 术 应 该 是 用 于 数据 仓库 的 数据 库 技 术 ， 事 实 上 除 一 些 非 常 
特殊 的 情况 外 ， 这 种 想法 是 不 正确 的 。 那 些 为 了 多 维 DBMS 技 术 的 功能 而 对 其 进行 优化 的 性 
质 并 不 是 数据 仓库 的 最 基本 的 重要 特性 。 数 据 仓库 中 最 重要 的 特性 也 不 是 多 维 DBMS 技 术 的 
特性 。 


数据 集 市 


多 度 综 合 的 
多 维 PDBMS(OLAP) 





CC 一 > 


图 5-5 数据 仓库 的 传统 结构 以 及 当前 细节 数据 是 如 何 同 部 门 数据 
(或 多 维 DBMS ， 数 据 集 市 ) 结合 起 来 的 


看 一 下 数据 仓库 和 多 维 DBMS 的 区 别 : 

。 数 据 仓 库 有 大 量 的 数据 ; 多 维 DBMS 中 的 数据 至 少 要 少 一 个 数量 级 。 

“数据 仓库 只 适 于 少量 的 灵活 访问 ; 而 多 维 DBMS 适 合 大 量 的 不 可 预知 的 数据 访问 和 分 析 。 

“数据 仓库 内 存储 了 很 长 时 间 范 转 内 的 数据 〈 从 5 年 到 10 年 ) ; 而 多 维 DBMS 中 只 存储 较 

短 时 间 范 围 内 的 数据 。 

* 数据 仓库 只 允许 分 析 人 员 以 受 限 的 形式 访问 数据 ， 而 多 维 DBMS 允 许 自由 的 访问 。 

“多 维 DBMS 和 数据 仓库 有 着 互补 的 关系 ， 而 并 不 是 数据 仓库 建立 在 多 维 DBMS 之 上 的 

关系 。 

数据 仓库 和 多 维 PDBMS 关 系 中 有 趣 的 一 点 是 ,数据 仓库 可 以 为 非常 细节 的 数据 提供 基础 ， 
而 这 些 数 据 在 多 维 DBMS 中 通常 是 看 不 到 的 。 数 据 仓库 能 容纳 非常 详细 的 数据 ， 这 些 数 据 在 
导 人 多 维 DBMS 时 被 轻 度 综合 了 。 而 导入 到 多 维 DBMS 之 后 ， 数 据 会 被 进一步 地 汇总 。 在 这 种 
模式 下 ， 多 维 DBMS 可 以 包含 除了 非常 细节 以 外 的 所 有 数据 。 使 用 多 维 DBMS 的 分 析 者 可 以 以 
一 种 灵活 而 高 效 的 方法 来 对 多 维 PBMS 中 所 有 不 同 层次 的 数据 进行 钻 取 。 如 果 需 要 ， 分 析 者 
还 可 以 向 下 销 取 到 数据 仓库 。 通 过 这 种 方式 将 数据 仓库 和 多 维 DBMS 相 结合 ，DSS 分 析 者 可 以 
得 到 这 二 者 的 好 处 ， 在 大 部 分 时 间 里 在 多 维 DBMS 中 享受 操作 高 效 的 优点 。 同 时 ， 还 可 以 向 
下 钻 取 到 最 低层 次 的 细节 数据 。 
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另 一 个 优势 是 汇总 的 信息 在 多 维 DBMS 中 计算 和 聚集 后 存储 在 数据 仓库 中 。 这 样 ， 汇 总 
数据 在 数据 仓库 中 能 比 在 多 维 PBMS 中 存储 更 长 的 时 间 。 

数据 仓库 和 多 维 DBMS 还 有 一 个 方面 也 是 互补 的 。 多 维 DBMS 存 放 中 等 时 间 长 度 的 数据 ， 
根据 应 用 的 不 同 从 12 个 月 到 15 个 月 。 而 数据 仓库 存放 数据 的 时 间 跨 度 要 大 得 多 一 一 从 5 年 到 10 
年 。 基 于 这 一 点 ， 数 据 仓 库 就 成 为 多 维 DBMS 分 析 者 进行 研究 的 数据 源 。 如 果 需 要 ， 多 维 
DBMS 分 析 者 可 以 高 兴 地 知道 有 大 量 的 可 用 数据 ， 而 不 用 为 在 他 们 的 环境 中 存储 所 有 这 些 数 
据 而 进行 花费 。 

多 维 DBMS 有 不 同 的 特色 。 一 些 多 维 DBMS 建 立 在 关系 模型 基础 上 ， 而 另 一 些 多 维 DBMS 
建立 在 能 优化 “切片 和 分 块 ” 数 据 的 基础 上 ， 在 这 里 数据 可 以 认为 存储 在 多 维 立方 体内 。 后 
者 的 技术 基础 可 以 称 为 立方 体 基 础 或 OLAP 基 础 。 

两 种 技术 基础 都 支持 多 维 DBMS 数 据 集 市 。 但 在 这 两 种 技术 基础 之 间 存 在 着 一 些 差 异 。 

多 维 DBMS 数 据 集 市 的 关系 型 基础 如 下 : 

自 优 点 : 

。 能 支持 大 量 数据 。 

。 能 支持 数据 的 动态 连接 。 

“ 已 被 证 实 是 有 效 的 技术 。 

。 能够 支持 通用 的 数据 更 新 处 理 。 

。 如 果 对 数据 的 使 用 模式 不 清楚 ， 关 系 型 结构 与 其 他 结构 一 样 好 。 

四 弱点 : 

。 性 能 上 不 是 最 佳 的 。 

。 不 能 够 对 访问 处 理 进 行 优化 。 

多 维 DBMS 数 据 集 市 的 立方 体 基 础 如 下 : 

国人 优点 : : 

“对 DSS 处 理 在 性 能 上 是 优化 的 。 

* 能够 对 数据 的 非常 快 的 访问 进行 优化 。 

。 如 果 已 知 数据 访问 的 模式 ， 则 数据 的 结构 可 以 优化 。 

。 能够 很 轻松 地 进行 切片 和 分 块 。 

。 可 以 用 许多 途径 进行 检测 。 

四 弱点 : 

* 无 法 处 理 像 标准 关系 模式 那么 多 的 数据 。 

*。 不 支持 通用 更 新 处 理 。 

。 装载 的 时 间 很 长 。 

*。 如 果 想 选取 的 访问 路 径 不 被 数据 设计 所 支持 ， 这 种 结构 就 显得 不 灵活 。 

*。 对 数据 的 动态 连接 的 支持 是 有 问题 的 。 

多 维 DBMS(OLAP) 是 一 种 技术 ， 而 数据 仓库 是 一 种 体系 结构 基础 。 这 两 者 之 间 存 在 着 依 
存 的 关系 。 在 通常 情况 下 ， 数 据 仓 库 是 作为 需要 流入 多 维 DBMS 的 数据 的 基础 ， 将 选 出 的 细 
节 数 据 的 子 集 转 入 多 维 DBMS ， 在 那里 对 数据 进行 汇总 或 聚集 。 但 在 某 些 范围 内 ， 有 一 种 观 
点 是 多 维 DBMS 并 不 需要 数据 仓库 作为 它 的 数据 的 基础 。 

如 果 没 有 数据 仓库 作为 多 维 DBMS 的 基础 ,那么 装 入 多 维 DBMS 中 的 数据 就 是 直接 从 旧 的 、 
历史 应 用 环境 中 得 到 的 。 图 5-6 展 示 了 数据 直接 从 历史 环境 中 装 和 多维 DBMS 中 的 情形 。 由 于 
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它 很 直接 ， 并且 很 容易 实现 ， 所 以 这 种 方法 很 吸引 人 。 一 个 程序 员 能 立刻 开始 工作 来 建造 它 。 





多 维 PBMS 数 据 集 市 


传统 的 应 用 


图 5-6 从 没有 当前 细节 数据 的 应 用 建立 多 维 DBMS 数 据 集 市 


不 幸 的 是 ， 图 5-6 所 示 的 体系 结构 中 有 一 些 并 不 是 那么 明显 的 主要 缺陷 。 由 于 各 种 各 样 的 
原因 ， 将 数据 仓库 中 的 当前 细节 级 的 数据 装 入 多 维 DBMS 环 境 提供 数据 比 将 历史 应 用 的 操作 
型 环境 中 的 数据 装 入 其 中 更 具 意义 。 

图 5-7 展 示 了 将 数据 仓库 的 当前 细节 级 的 数据 装 入 多 维 DBMS 环 境 中 。 在 导入 数据 仓库 的 
过 程 中 ， 对 旧 的 、 历 史 的 操作 型 数据 进行 了 集成 和 转换 。 

一 旦 到 了 数据 仓库 以 后 ， 被 集成 的 数据 就 以 当前 细节 数据 的 级 别 存储 。 多 维 DBMS 就 是 
要 载 人 数据 仓库 中 这 一 级 别 的 数据 。 

站 
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传统 的 应 用 
图 5-7 从 应 用 环境 流入 当前 细节 级 再 到 多 维 DBMS 数 据 集 市 的 数据 流 


初 看 起 来 ， 图 5-6 和 图 5-7 所 示 的 两 种 结构 之 间 似 平 并 没有 本 质 上 的 区 别 。 事 实 上 ， 将 数据 
首先 装 人 到 数据 仓库 中 似乎 是 浪费 精力 。 但 是 ， 有 一 个 非常 好 的 理由 说 明 为 什么 创建 多 维 
DBMS 的 第 一 步 是 将 数据 集成 到 数据 仓库 中 。 

考虑 一 下 在 通常 情况 下 ， 一 个 公司 需要 建立 多 个 多 维 DBMS 。 人 金融 部 门 需要 自己 的 多 维 
DBMS ， 财 务 部 门 也 需要 。 市 场 部 、 销 售 部 和 其 他 部 门 也 都 需要 自己 的 多 维 DBMS。 因 为 在 公 
司 里 会 有 众多 的 多 维 DBMS ， 所 以 图 5-6 所 示 的 情形 会 变 得 非常 复杂 。 在 图 5-8 中 ， 将 图 5-6 扩 
展 成 了 一 个 实际 的 情形 。 众 多 的 多 维 DBMS 直 接 而 独立 地 从 历史 系统 环境 中 获得 数据 。 

图 5-8 表 明 ， 众 多 的 多 维 DBMS 直 接 从 相同 的 历史 应 用 中 获得 数据 。 那 么 ， 这 种 结构 有 什 
么 问题 呢 ? 问题 如 下 : 

“ 抽取 数据 所 需 进行 的 开发 量 是 巨大 的 。 每 一 个 不 同 的 部 门 多 维 DBMS 都 需要 定制 开发 一 

套 适合 自己 的 抽取 程序 。 抽 取 处 理 过 程 有 大 量 的 重合。 这 样 ， 浪 费 的 开发 工作 量 很 大 。 
当 多 维 DBMS 是 从 数据 仓库 中 抽取 数据 时 ， 它 只 需要 一 套 集成 和 转换 的 程序 。 

。 当 多 维 DBMS 是 从 历史 系统 环境 中 直接 抽取 数据 时 ， 并 没有 数据 的 集成 基础 。 每 个 部 门 
的 多 维 DBMS 对 于 怎样 从 不 同 的 应 用 中 集成 数据 都 有 自己 的 解释 。 不 幸 的 是 ， 通 常 一 个 
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部 门 集成 数据 的 方法 和 其 他 部 门 对 相同 数据 的 集成 方法 是 不 同 的 。 结 果 导 致 最 终 没有 单 
一 集成 的 、 确 定 的 数据 源 。 相 反 地 ， 在 建造 数据 仓库 时 ， 有 一 个 能 够 作为 构造 基础 的 单 
一 的 、 集 成 的 、 确 定 的 数据 源 。 

。 维 护 所 进行 的 开发 工作 量 是 巨大 的 。 在 旧 的 传统 应 用 中 ， 仅 仅 一 个 改变 就 会 影响 许多 抽 
取 程 序 。 有 抽取 程序 的 地 方 由 于 这 个 改变 而 做 一 些 改动 ， 而 且 这 种 改动 会 很 多 。 当 有 了 
数据 仓库 后 ， 由 于 只 需要 写 很 少 的 程序 来 处 理 历史 环境 和 数据 仓库 的 接口 ， 所 以 应 用 中 
的 改变 所 产生 的 影响 也 是 最 小 的 。 

。 需 要 消耗 的 硬件 资源 的 数量 是 很 大 的 。 对 于 每 一 个 部 门 的 每 一 个 抽取 处 理 ， 同 样 的 历史 
数据 都 要 顺序 地 重复 传送 。 而 在 数据 仓库 中 ， 历 史 数据 只 需要 传送 一 次 来 刷新 数据 仓库 
中 的 数据 。 

。 从 历史 环境 中 将 数据 直接 导入 多 维 DBMS 环 境 中 的 复杂 性 无 法 对 元 数据 进行 有 效 的 管理 
和 控制 。 在 数据 仓库 中 ， 捕 获 和 管理 元 数据 可 以 直接 进行 。 

。 缺 乏 数据 的 一 致 性 。 当 不 同 的 部 门 之 间 存在 意见 分 歧 时 ， 各 自 都 有 自己 的 多 维 DBMS ， 
很 难 解决 。 但 用 数据 仓库 后 ， 冲 突 的 解决 是 很 自然 并 且 很 容易 的 。 

。 每 次 必须 构建 一 个 新 的 多 维 DBMS 环 境 ， 而 且 必 须根 据 历 史 环 境 建立 ， 所 需要 的 工作 量 
是 相当 可 观 的 。 然 而 ， 如 果 数 据 基础 是 在 一 个 数据 仓库 中 ， 建 造 一 个 新 的 多 维 DBMS 环 
境 将 快速 而 容易 。 

直接 应 用 多 维 数据 库 管理 系统 方法 是 难以 实现 的 一 个 主要 原因 


wb \ 
KX 
名 


鸭 4 ) 
和 < 2 
多 72 O 





应 用 i 


图 5-8 有 许多 的 应 用 和 许多 的 数据 集 市 ， 每 对 之 间 都 需要 一 个 接口 。 回避 
细节 数据 的 当前 级 的 后 果 是 产生 一 个 无 法 管理 的 “蜘蛛 网 ” 
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如 果 一 个 企业 考虑 的 是 一 种 短期 的 方法 ， 那 么 数据 仓库 代价 的 合理 性 分 析 将 很 难 进行 。 
如 果 从 长 期 来 看 ， 构 建 许多 多 维 数据 库 环境 所 需 的 费用 是 非常 高 的 。 而 当 一 个 企业 从 长 期 的 
观点 出 发 建立 一 个 数据 仓库 时 ， 则 数据 仓库 和 数据 集 市 所 需 的 长 期 总 费用 将 会 显著 降低 。 


5.20 在 多 种 存储 介质 上 构建 数据 仓库 


数据 仓库 有 一 个 有 趣 的 方面 ， 就 是 当 大 量 数据 分 布 在 多 种 存储 介质 上 时 ， 经 常会 创建 双 
重 环境 。 一 个 处 理 环境 是 可 以 进行 在 线 的 、 交 互 式 处 理 的 DASD 环 境 。 另 一 个 处 理 环 境 通常 是 
本 质 上 具有 不 同 特征 的 磁带 或 其 他 的 大 容量 存储 环境 。 在 逻辑 上 ， 两 种 环境 结合 在 一 起 形成 
了 一 个 数据 仓库 。 然 而 ， 在 物理 上 ， 这 两 种 环境 具有 很 大 的 不 同 。 在 许多 情况 下 ， 支 持 DASD 
环境 的 底层 技术 和 支持 大 容量 存储 环境 的 底层 技术 是 不 同 的 。 当 在 数据 仓库 中 有 双重 环境 时 ， 
采用 混合 技术 是 很 普遍 和 自然 的 。 

但 是 ， 还 有 另 一 种 方式 可 以 把 技术 分 离 ， 这 种 方式 是 不 寻常 或 不 自然 的 。 可 以 想象 得 到 ， 
数据 仓库 环境 的 DASD 部 分 可 以 用 多 种 技术 将 其 分 离 。 换 名 话说 ， 数 据 仓 库 的 DASD 环 境 的 一 
部 分 是 采用 一 个 厂商 的 数据 库 技术 来 存储 ， 而 另 一 部 分 则 采用 其 他 厂商 的 数据 库 技术 来 存储 。 
如 有 果 分 离 是 预先 计划 好 的 ， 并 且 是 一 个 大 的 分 布 式 数据 仓库 的 一 部 分 的 话 ， 那 么 这 种 分 离 是 
恰当 的 。 但 是 ， 如 果 分 离 是 出 于 政治 和 历史 上 的 原因 ， 那 么 将 数据 仓库 的 不 同 部 分 分 散 存储 
在 不 同 厂 商 的 平台 上 是 不 可 取 的 。 


5.21 数据 仓库 环境 中 元 数据 的 角色 


在 数据 仓库 环境 中 元 数据 所 扮演 的 角色 和 在 操作 型 环境 中 数据 所 扮演 的 角色 是 不 同 的 。 
在 操作 型 环境 中 ， 元 数据 几乎 被 当成 是 事后 补 记 ， 并 归 入 到 与 文档 相同 的 重要 性 级 别 。 然 而 ， 
在 数据 仓库 环境 中 ， 元 数据 的 重要 性 提高 了 。 

数据 仓库 环境 中 元 数据 的 重要 性 如 图 5-9 所 示 。 操 作 型 数据 和 数据 仓库 中 的 数据 服务 于 两 
类 不 同 的 群体 ， 操 作 型 数据 由 IT 专业 人 员 使 用 ， 许 多 年 来 ，IT 人 员 都 是 很 偶然 地 使 用 元 数据 。 
IT 专业 人 员 不 仅 懂 计 算 机 ， 而 且 由 于 学 历 背景 和 所 受 的 培训 ， 他 们 会 在 系统 中 找到 他 们 想 去 
的 地 方 。 然 而 ， 数 据 仓 库 数据 是 给 DSS 分 析 者 用 的 。DSS 分 析 人 员 通 常 是 专业 人 员 ， 没 有 很 高 
的 计算 机 水 平 。 为 了 能 够 有 效 地 使 用 数据 仓库 环境 ，DSS 分 析 人 员 需 要 尽量 多 的 帮助 ， 而 元 
数据 恰 能 很 好 地 帮助 他 们 。 另 外 ， 在 DSS 分 析 者 计划 该 怎样 去 做 信息 型 或 分 析 型 处 理 时 ， 他 
们 首先 要 看 的 就 是 元 数据 。 由 于 所 服务 的 人 员 的 群体 不 同 ， 以 及 元 数据 在 每 天 的 工作 中 所 起 
的 作用 不 同 ， 元 数据 在 数据 仓库 环境 中 比 在 操作 型 环境 中 要 重要 得 多 。 

然而 ， 还 有 其 他 原因 使 数据 仓库 的 元 数据 很 重要 。 其 中 一 个 原因 是 元 数据 涉及 到 对 操作 
型 环境 和 数据 仓库 环境 之 间 的 映射 管理 ， 图 5-10 表 明了 这 一 点 。 

当 数 据 从 操作 型 环境 传 入 数据 仓库 环境 上 时， 数据 要 经 历 一 个 重大 的 转变 。 和 转换、 过滤 、 
汇总 、 结 构 改变 等 等 都 会 发 生 。 有 必要 对 这 些 转变 仔细 地 跟踪 ， 而 数据 仓库 中 的 元 数据 就 是 
进行 这 项 工作 的 理想 场所 。 当 一 个 管理 者 需要 将 数据 从 数据 仓库 追 调 到 操作 型 环境 中 时 (最 
终 的 向 下 销 取 ) ， 对 这 种 转变 保持 一 个 细致 的 记录 的 重要 性 就 显而易见 了 。 在 这 种 情况 下 ， 对 
数据 转变 的 记录 恰恰 描绘 了 怎样 从 数据 仓库 钻 取 到 操作 型 环境 的 源 数据 。 

对 于 数据 仓库 环境 中 的 元 数据 需要 细致 管理 还 有 另外 一 个 重要 原因 ， 如 图 5-11 所 示 。 数 
据 仓库 中 数据 会 存在 很 长 一 段 时 间 一 一 从 5 年 到 10 年 。 而 在 5 年 到 10 年 这 么 长 的 时 间 段 内 ， 数 
据 仓 库 改变 它 的 结构 是 绝对 正常 的 。 那 么 ， 随 着 时 间 的 变化 来 跟踪 数据 结构 的 变化 ， 则 是 数 
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据 仓库 中 元 数据 很 自然 的 一 项 任务 。 


操作 型 环境 数据 仓库 
元 数据 [元 数据 
站 wh 
TT DSS 
专业 人 员 分 析 人 员 


图 5-9 IT 专业 人 员 偶 尔 使 用 元 数据 ，DSS 分 析 人 员 经 常 使 用 元 数据 并 作为 分 析 的 第 一 步 
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图 5-10 操作 型 环境 和 数据 仓库 环境 之 间 的 映射 是 需要 元 数据 的 另 一 个 主要 
原因 ; 没有 这 种 映射 ， 对 接口 进行 控制 是 非常 困难 的 
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图 5-11 数据 仓库 中 包含 很 长 一 段 时 间 的 数据 ， 因 此 必须 管理 多 种 数据 结构 /定义 。 
操作 型 环境 假设 在 任 一 时 刻 只 有 惟一 的 正确 的 数据 定义 
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将 数据 仓库 环境 中 具有 许多 随时 间 变化 的 多 种 数据 结构 的 概念 与 操作 型 环境 中 的 元 数据 
比较 一 -下 。 在 操作 型 环境 中 ， 总 是 假定 ， 在 任何 时 刻 ， 对 数据 结构 有 且 仅 有 一 个 正确 的 定义 。 


5.22 上 下 文 和 内 容 


过 去 ， 典 型 的 操作 型 信息 系统 将 注意 力 集中 在 企业 的 当前 数据 上 。 在 操作 型 世界 中 ， 强 
调 的 重点 是 此 刻 账目 的 余额 是 多 少 ， 此 刻 的 存货 有 多 少 ， 或 此 刻 货物 的 运送 情况 如 何 。 当 然 ， 
任何 一 个 企业 都 有 必要 知道 当前 的 信息 。 但 对 过 去 一 段 时 间 的 信息 进行 考察 也 有 真正 的 价值 ， 
并 且 ， 在 有 了 数据 仓库 技术 以 后 ， 这 个 要 求 变 得 可 能 了 。 例 如 ， 对 历史 信息 进行 观察 就 可 以 
明显 地 看 到 相应 的 发 展 趋势 ， 而 仅仅 查看 当前 信息 是 看 不 到 这 一 点 的 。 数 据 仓库 定义 中 的 一 
个 最 重要 特征 就 是 能 够 对 一 段 时 间 内 的 数据 进行 存储 、 管 理 和 访问 。 

伴随 着 作为 数据 仓库 一 部 分 的 足够 长 的 时 间 谱 ， 出 现 了 一 个 新 的 数据 维 一 一 上 下 文 。 为 
了 阐明 上 下 文 信息 的 重要 性 ， 下 面 给 出 了 一 个 例子 。 

假定 一 个 管理 者 想 从 数据 仓库 中 要 一 份 1995 年 的 报表 。 报 表 生 成 后 ， 管 理 者 很 满意 。 事 
实 上 ， 由 于 管理 者 很 满意 ， 所 以 想 要 一 份 1990 年 的 报表 。 由 于 数据 仓库 载 有 历史 信息 ， 这 样 
的 要 求 并 不 难 实现 。1990 年 的 报表 生成 了 。 现 在 ， 管 理 者 手 上 有 两 份 报表 一 一 1990 年 和 1995 
年 各 一 份 ， 并 宣布 这 些 报表 是 一 场 灾难 。 

数据 仓库 体系 结构 设计 者 检查 了 报表 , 发 现 1995 年 的 财政 报告 显示 收入 为 50 000 000 美 元 ， 
而 1990 年 的 报告 对 同一 种 类 显示 为 10 000 美 元 。 管 理 者 宣称 任何 账户 或 分 类 都 不 可 能 在 5 年 时 
间 内 就 增长 这 么 多 。 

就 在 要 放弃 之 前 ， 数 据 仓 库 体 系 结构 设计 者 向 管理 者 指出 ， 还 有 一 些 相关 的 因素 没有 在 
报表 中 体现 出 来 。1990 年 和 1995 年 的 数据 是 从 不 同 来 源 得 到 的 ; 1990 年 的 产品 定义 不 同 于 
1995 年 的 ; 1990 年 和 1995 年 有 不 同 的 市 场 范 围 ，1990 年 和 1995 年 有 不 同 的 计算 方法 ， 如 针对 
贬值 问题 。 男 外 ， 还 有 许多 不 同 的 外 部 因素 需要 考 虚 ， 如 在 通货 膨胀 、 税 款 、 经 济 预 独 等 方 
面 的 差别 。 一 旦 把 报表 的 上 下 文 向 管理 者 解释 之 后 ， 内 容 就 在 相当 程度 上 显得 可 接受 。 

在 这 个 简单 而 又 常见 的 例子 中 ， 如 果 随 着 时 间 变 化 数据 的 内 容 没 有 任何 附加 信息 ， 那 么 
内 容 本 身 就 是 非常 难于 解释 和 难以 令 人 相信 和 的。 然而， 随 着 时 间 的 变化 同时 ， 把 上 下 文 加 入 
到 数据 的 内 容 上 ， 内 容 和 上 下 文 都 变 得 非常 明了 。 

为 了 解释 和 理解 一 段 时 间 内 的 信息 ， 需 要 一 个 全 新 的 上 下 文 维 。 虽 然 信息 的 内 容 仍 十 分 
重要 ， 但 是 ， 一 段 时 间 内 信息 的 比较 和 理解 使 得 上 下 文 和 内 容 具 有 同等 的 重要 性 。 而 在 过 去 
的 几 年 中 ， 上 下 文 一 直 是 信息 的 一 个 未 被 发 现 、 未 被 探索 的 维 。 


5.22.1 上 下 文 信息 的 三 种 类 型 


需要 管理 三 种 级 别 的 上 下 文 信息 : 

* 简单 上 下 文 信息 。 

“复杂 上 下 文 信息 。 

。 外 部 上 下 文 信息 。 

简单 上 下 文 信息 与 数据 本 身 的 基本 结构 有 关 ， 包 括 如 下 一 些 内 容 : 
里 数据 的 结构 。 

和 数据 的 编码 。 

中 数 据 的 命名 习惯 。 
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四 描述 数据 的 度量 ， 如 : 

。 数 据 量 有 多 少 。 

。 数 据 增长 速度 。 

。 数 据 的 哪 一 部 分 在 增长 。 

。 数 据 是 如 何 被 使 用 的 。 

以 往 ， 简 单 上 下 文 信息 用 字典 、 目 录 、 系 统 监视 器 等 进行 管理 。 复 杂 上 下 文 信息 描述 的 
数据 和 简单 上 下 文 信息 描述 的 相同 ， 但 是 从 不 同 的 角度 进行 描述 。 复 杂 上 下 文 信息 如 下 说 明 
数据 : 


。 包 装 。 

。 组 织 结构 。 

* 配送 。 

复杂 上 下 文 信息 是 一 些 非常 有 用 ， 同 时 又 是 非常 难以 提 摸 的 信息 。 难 以 扣 措 是 因为 它 被 
大 们 想当然 ， 并 存在 于 背景 环境 中 。 它 非常 基本 ， 以 致 于 没有 人 会 想到 要 定义 它 是 什么 ， 或 
怎样 随时 间 变 化 。 然 而 ， 长 期 下 去 ,复杂 上 下 文 信息 在 理解 和 解释 一 段 时 间 内 的 信息 方面 有 
着 非常 重要 的 作用 。 . 

外 部 上 下 文 信息 是 处 于 企业 之 外 的 、 在 理解 随时 间 变 化 的 信息 方面 起 重要 作用 的 信息 。 
外 部 上 下 文 信息 的 实例 包括 : 

里 经 济 预测 : 


四 用 户 人 数 的 统计 变动 。 

外 部 上 下 文 信息 并 没有 直接 指出 关于 一 个 企业 的 任何 事情 ， 但 指出 了 企业 运转 和 竞争 中 
所 处 的 大 环境 。 考 虑 到 外 部 上 下 文 信息 的 立即 显现 和 随时 间 变 化 的 特性 ， 外 部 上 下 文 信息 是 
很 令 人 感 兴趣 的 。 同 复杂 上 下 文 信息 一 样 ， 很 少 会 有 企业 尝试 去 采集 和 量度 这 些 信息 。 外 部 
上 下 文 信息 非常 之 多 ， 也 很 显然 ， 以 致 被 人 们 想当然 ， 因 此 ， 它 会 很 快 被 遗忘 ， 而 在 需要 时 
却 又 很 难 重建 。 


5.22.2 捕获 和 管理 上 下 文 信息 


复杂 上 下 文 信息 和 外 部 上 下 文 信息 难以 捕获 和 确定 ， 是 因为 这 些 信息 都 是 非 结构 化 的 。 
与 简单 上 下 文 信息 相 比较 ， 外 部 上 下 文 信息 和 复杂 上 下 文 信息 显得 非常 杂乱 无 章 。 另 外 的 一 
个 较 轻 的 因素 是 上 下 文 信息 变化 很 快 。 这 一 刻 相 关 的 信息 ， 在 下 一 时 刻 就 消失 了 。 正 是 因为 
外 部 和 复杂 上 下 文 信息 的 这 些 不 断 变化 和 没有 固定 状态 的 特点 ， 使 得 这 种 类 型 的 信息 难于 系 
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统 化 。 
5.22.3 回顾 上 下 文 信息 管理 历史 


有 人 可 能 会 争辩 说 ， 信 息 系 统 行业 在 过 去 已 经 有 了 上 下 文 信息 。 字 典 、 知 识 库 、 目 录 和 
库 都 是 用 来 管理 简单 上 下 文 信息 的 尝试 。 尽 管 有 这 些 好 的 想法 ,但 存在 的 一 些 明显 的 局 限 性 
大 大 地 降低 了 它们 的 有 效 性 。 下 面 给 出 以 往 管理 简单 上 下 文 信息 的 方法 存在 的 一 些 缺 点 : 

“ 信息 的 管理 是 针对 信息 系统 的 开发 者 ， 而 不 是 最 终 用 户 。 这 样 ， 对 于 最 终 用 户 有 很 少 的 

可 视 性 。 结果， 最 终 用 户 对 并 不 明显 的 事情 没有 什么 热情 ， 或 者 不 支持 这 样 的 事情 。 

。 这 些 上 下 文 信息 管理 的 尝试 都 是 被 动 的 。 开 发 者 可 以 选择 用 或 不 用 这 些 上 下 文 信息 管理 

工具 ， 很 多 人 倾向 于 回避 这 些 工具 。 

“这 些 上 下 文 信息 管理 的 计划 在 很 多 情况 下 都 会 被 从 开发 计划 中 删除 。 在 许多 的 实例 中 ， 

应 用 是 在 1965 年 开发 的 ， 而 数据 字典 是 1985 年 做 的 ， 而 到 了 1985 年 ， 就 再 也 设 有 更 多 的 

开发 经 费 了 。 甚 至 ， 那 些 对 组 织 和 定义 简单 上 下 文 信 息 最 有 帮助 的 人 早已 改行 或 到 了 其 

他 公司 了 。 

“这 些 上 下 文 信息 管理 的 尝试 仅 局 限于 简单 上 下 文 信息 ， 并 没有 尝试 去 捕获 或 管理 外 部 和 

复杂 上 下 文 信息 。 


5.23 刷新 数据 仓库 


一 旦 数据 仓库 建 好 以 后 ， 注 意 力 就 从 建造 数据 仓库 转向 日 常 的 运作 。 不 可 避免 的 是 ， 人 
们 发 现 运 作 和 维护 数据 仓库 的 费用 很 高 。 数 据 仓 库 中 ， 数 据 量 的 增长 速度 比 任何 人 预计 的 都 
要 快 。 最 终 用 户 DSS 分 析 人 员 对 数据 仓库 的 分 布 很 广 、 不 可 预测 的 大 量 使 用 ， 引 起 了 在 管理 
数据 仓库 的 服务 器 端的 竞争 ， 而 与 数据 仓库 运作 有 关 的 最 大 最 不 可 预知 的 开销 是 根据 历史 数 
据 的 定期 刷新 。 在 刚 开始 的 时 候 ， 这 些 开销 几乎 可 以 算是 偶然 性 的 很 少 的 开销 ， 但 很 快 就 变 
为 一 项 有 相当 规模 的 开销 。 

多 数 企 业 在 考虑 对 数据 仓库 进行 刷新 时 所 采取 的 第 一 个 步骤 是 从 老 的 传统 数据 库 中 读 取 
数据 。 对 于 某 些 类 型 的 处 理 ， 在 某 些 环境 下 ， 直 接 读 取 老 的 传统 文件 是 对 数据 仓库 进行 刷新 
的 惟一 的 选择 ， 例 如 ， 当 需要 从 多 个 不 同 的 传统 数据 源 读 取 数 据 ， 形 成 一 个 整体 放 入 数据 仓 
库 中 时 ， 或 当 一 个 事务 处 理 同 时 引发 了 多 个 传统 文件 的 更 新 时 ， 直 接 读 取 历 史 数 据 是 对 数据 
仓库 进行 刷新 的 惟一 方法 。 

然而 ， 作 为 一 个 通用 的 策略 ， 重 复 地 直接 读 取 历史 数据 开销 非常 大 。 直 接 读 取 传 统 数据 
库 的 开销 以 两 种 方式 增长 。 首 先 ， 在 读 取 过 程 中 ， 传 统 的 DBMS 必 须 是 在 线 的 和 活动 的 。 对 
传统 环境 的 长 时 间 连 续 处 理 的 时 间 窗 口 总 是 要 受到 限制 的 。 为 了 刷新 数据 仓库 而 扩大 这 个 时 
间 窗 口 永远 是 不 可 取 的 。 其 次 ， 相 同 的 历史 数据 并 没 必 要 地 传送 了 好 几 次 。 当 只 需要 1% 或 2% 
的 历史 数据 时 ， 刷 新 活动 却 100% 地 扫描 整个 传统 文件 。 在 每 一 次 刷新 时 ， 这 种 资源 浪费 都 会 
发 生 。 由 于 操作 的 这 些 低 效 性 ， 直 接 而 重复 地 读 取 历 史 数据 来 进行 刷新 是 在 用 途 和 应 用 上 非 
常 有 限 的 一 种 策略 。 

有 一 个 更 吸引 人 的 方法 ， 就 是 在 传统 环境 中 捕 棍 正在 被 修改 的 数据 。 通 过 捕获 数据 ， 当 
需要 对 数据 仓库 刷新 的 时 候 ， 就 不 再 需要 对 历史 环境 中 的 表 进 行 整 表 扫描 。 另 外 、 因 为 数据 
在 其 被 修改 时 被 捕获 到 ， 所 以 ， 也 就 不 需要 为 了 长 时 间 的 顺序 扫描 而 使 传统 DBMS 以 在 线 方 
式 进 行 运作 。 相 反 ， 捕 提 到 的 数据 可 以 离线 进行 处 理 。 
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当 传 统 操作 型 环境 中 的 数据 发 生 改 变 时 ， 可 以 使 用 两 种 基本 的 技术 来 捕 歼 这 些 数据 。 一 
种 技术 称 为 数据 复制 。 另 一 种 称 为 变化 数据 捕获 ， 这 种 方式 将 发 生 的 变化 从 在 在 线 更 新 时 生 
成 的 日 志 或 日 志 磁 带 中 提取 出 来 。 

数据 复制 要 求 将 要 捕获 的 数据 在 修改 之 前 标识 出 来 。 这 样 ， 当 发 生 改 变 时 ， 数 据 就 能 被 
捕获 。 一 般 ， 需 要 设置 一 个 触发 器 来 捕获 数据 的 更 新 活动 。 数 据 复制 的 一 个 好 处 是 可 以 有 选 
择 地 控制 捕获 处 理 。 事 实 上， 只 有 需要 捕获 的 数据 才 会 被 捕获 。 数 据 复制 的 另外 一 个 好 处 是 
数据 的 格式 “整洁 ”、 定 义 完 善 。 被 捕获 的 数据 的 内 容 和 结构 都 具有 很 好 的 文档 说 明 ， 易 于 被 
程序 员 所 理解 。 数 据 复制 的 缺点 是 ， 捕 获 数据 的 同时 带 来 了 许多 额外 的 IO 操作 。 同 时 ， 由 于 
数据 仓库 不 稳定 、 总 在 变化 的 特性 ， 系 统 也 要 不 断 地 注意 控制 捕获 过 程 的 参数 和 触发 器 的 定 
义 。 所 需 的 IO 数量 通常 也 不 是 很 小 。 另 外 ， 所 需 消耗 的 IO 都 是 在 系统 高 性 能 运行 时 进行 的 ， 
在 这 个 时 间 ， 系 统 是 很 难 提供 这 种 花费 的 。 

有 效 刷新 的 第 二 种 方法 是 通过 所 谓 变 化 数据 捕获 (CDC)。CDC 通 过 使 用 日 志 磁 带 来 捕获 
和 确定 在 在 线 过 程 中 发 生 的 变化 。 在 这 种 方法 中 ， 读 取 日 志 或 日 志 磁 带 。 然 而 ， 读 取 一 个 日 
志 磁 带 并 不 是 件 小 事 ， 其 中 存在 有 很 多 障碍 ， 包 括 : 

。 上 日志 磁 带 包 含 许多 无 关 数据 。 

。 日 志 磁 带 格式 难于 理解 。 

* 日 志 磁 带 包 括 跨 区 记录 。 

。 日志 磁带 通常 包含 的 是 数据 的 地 址 而 并 非 它 的 值 。 

。 日 志和 磁带 反映 了 DBMS 的 特征 ， 并 随 DBMS 的 不 同 而 有 很 大 的 不 同 。 

CPC 的 主要 障碍 就 是 读 取 和 理解 日 志 磁 带 。 但 是 ， 一旦 解决 了 这 个 问题 ， 就 会 发 现 用 日 
志 来 处 理 数据 仓库 刷新 很 吸引 人 的 好 处 。 第 一 个 优点 就 是 高 效率 。 日 志 磁 带 处 理 不 像 复制 处 
理 需要 附加 的 VO 操作 。 日 志 磁 带 不 管 是 否 用 于 数据 仓库 的 刷新 ， 它 都 是 要 写 的 。 因 此 , 日 志 
磁带 的 CDC 处 理 不 增加 WO 操作 。CDC 的 第 二 个 好 处 是 ， 日 志 磁 带 捕获 所 有 的 数据 更 新 操作 。 
对 数据 仓库 或 对 传统 系统 环境 做 改变 时 ， 用 不 着 重新 定义 参数 。 而 且 日 志 磁 带 是 所 能 得 到 的 
最 稳定 和 基本 的 设备 。 

CDC 还 有 第 二 种 方法 : 当 数 据 变化 发 生 时 ， 从 DBMS 的 缓冲 区 提出 已 改变 的 数据 。 在 这 
种 方法 中 ， 数 据 改 变 能 立即 反映 。 因 此 ， 读 日 志 磁 带 变 得 没有 必要 ， 而 且 节 约 了 一 段 从 数据 
发 生 改 变 到 改变 被 反映 到 数据 仓库 之 间 的 时 间 。 但 是 ， 因 为 需要 更 多 在 线 资源 ， 包 括 系统 软 
件 和 对 数据 改变 的 敏感 性 ， 因 此 ， 这 种 方法 会 给 性 能 带 来 一 定 的 冲击 。 尽 管 如 此 ， 这 种 直接 
缓冲 方法 能 够 以 非常 高 的 速度 处 理 大 量 的 数据 。 

这 里 所 描述 的 刷新 技术 的 发 展 进程 是 通过 模仿 企业 在 对 数据 仓库 的 理解 和 运作 逐渐 成 熟 
的 过 程 中 所 产生 的 各 种 想法 形成 的 。 首 先 ， 企 业 从 传统 数据 库 中 直接 读 取 数 据 来 刷新 数据 仓 
库 。 然 后 尝试 数据 复制 。 最 后 ， 运 作 的 经 济 和 效率 因素 又 使 他 们 把 CDC 当 作 数 据 仓库 刷新 的 
主要 方法 。 在 这 个 过 程 中 ， 一 些 文件 是 需要 直接 读 取 的 。 另 外 ， 还 有 一 些 文件 适合 于 复制 方 
法 。 但 对 于 业界 常见 的 、 彻 底 的 、 通 用 的 数据 仓库 刷新 来 说 ，CDC 是 一 种 长 期 的 、 最 终 的 数 
据 仓库 刷新 方法 。 


5.24 测试 问题 


在 经 典 的 操作 型 环境 中 ， 设 置 两 个 并 行 的 环境 一 一 一 个 用 于 生产 ， 一 个 用 于 测试 。 生 产 
环境 是 生产 过 程 进行 的 地 方 。 测 试 环境 是 程序 员 测 试 新 程序 和 修改 现 有 程序 的 地 方 。 这 种 想 
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法 出 于 程序 员 在 所 写 的 代码 允许 进入 在 线 环境 之 前 ， 有 机 会 先 看 看 这 些 代 码 能 否 正常 工作 ， 
具有 更 高 的 安全 性 。 

在 数据 仓库 领域 ， 很 难 找到 相似 的 测试 环境 ， 这 是 因为 : 

。 数 据 仓库 都 是 如 此 的 大 ， 公 司 测试 其 中 的 一 个 就 很 困难 ， 更 不 用 说 是 两 个 了 。 

“数据 仓库 的 开发 生命 周期 的 特征 是 反复 式 的 。 对 于 多 数 部 分 ， 程 序 以 一 种 启发 式 的 模式 

运行 ， 并 不 是 以 重复 的 模式 来 运行 。 如 果 一 个 程序 员 在 数据 仓库 环境 做 错 了 什么 《程序 

员 们 经 常会 出 错 ) ， 在 这 环境 下 ， 程 序 员 只 需要 简单 地 重 做 一 遍 。 

因此 ， 数 据 仓库 环境 在 根本 上 与 传统 的 生产 环境 不 同 。 这 是 因为 在 数据 仓库 环境 中 ， 在 
很 多 情况 下 测试 环境 是 完全 不 需要 的 。 


5.25 小 结 


为 了 满足 数据 仓库 处 理 的 需要 ， 需 要 一 些 技术 特征 。 这 些 技术 特征 包括 稳健 的 语言 接口 、 
支持 复合 关键 字 和 变 长 数据 ， 以 及 如 下 的 一 些 能 力 : 

“管理 大 量 数据 。 

“ 管理 各 种 各 样 介质 上 的 数据 。 

“方便 地 索引 和 监控 数据 。 

“大 量 接口 技术 。 

“允许 程序 员 将 数据 直接 存放 在 物理 存储 设备 上 。 

“数据 的 并 行 存储 和 访问 。 

*。 有 数据 仓库 的 元 数据 控制 。 

“。 有 效 地 装载 数据 仓库 。 

“有 效 地 使 用 索引 。 

“以 压缩 方式 存储 数据 。 

。 支 持 复合 关键 字 。 

“有 选择 地 关闭 锁 管 理 。 

“能 进行 只 涉及 索引 的 处 理 。 

“。 从 大 容量 存储 器 迅速 恢复 。 

另外 ， 数 据 体系 结构 设计 人 员 必 须 意 识 到 基于 事务 的 DBEMS 和 基于 数据 仓库 的 DBMS 之 间 
的 区 别 。 基 于 事务 的 DBMS 的 重点 在 于 事务 和 更 新 的 有 效 执行 。 而 基于 数据 仓库 的 DBMS 的 重 
点 在 于 有 效 查询 处 理 以 及 对 装载 和 存 取 工作 的 处 理 。 

多 维 OLAP 技 术 适 用 于 数据 集 市 处 理 而 不 适用 于 数据 仓库 处 理 。 当 将 数据 集 市 方法 作为 数 
据 仓 库 技 术 的 基础 时 ， 会 带 来 一 些 问 题 : 

“抽取 程序 的 数目 变 多 了 。 

。 每 个 新 的 多 维 数据 库 为 了 获取 自己 的 数据 ， 都 必须 返回 到 传统 操作 型 环境 。 

。 在 分 析 中 没有 协调 分 歧 的 基础 。 

" 在 不 同 的 多 维 DBMS 环 境 中 存在 大 量 的 元 余数 据 。 

最 后 ， 元 数据 在 数据 仓库 环境 中 扮演 了 一 个 与 它 在 传统 操作 型 环境 完全 不 同 的 角色 。 
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大 部 分 企业 所 建立 和 维护 的 是 一 个 集中 式 数据 仓库 环境 。 集 中 式 数 据 仓库 环境 比较 流行 ， 
有 许多 原因 : 

* 数据 仓库 中 的 数据 是 全 企业 范围 内 集成 的 ， 而 且 只 有 总 部 才 会 使 用 和 集成 的 数据 。 

* 公司 是 以 集中 式 商务 模式 运作 的 。 

* 数据 仓库 中 的 数据 量 非常 大 ， 将 数据 集中 存储 在 一 个 地 方 是 较为 妥当 的 。 

。 即 使 数据 能 被 集成 ,但 是 ， 若 将 它们 分 布 于 多 个 局 部 站 点 ， 那 么 存 取 这 些 数据 将 是 很 

麻烦 的 。 

总 之 ， 政策 、 经 济 和 技术 等 诸多 因素 都 更 倾向 于 集中 式 数 据 仓 库 环 境 。 但是， 在 这 章 所 
提 到 的 某 些 特定 场合 ， 需 要 建立 分 布 式 数据 仓库 环境 。 


6.1 分 布 式 数据 仓库 的 类 型 


分 布 式 数据 仓库 有 以 下 三 种 类 型 : 

“业务 是 在 不 同 地 域 或 不 同 的 生产 线 上 进行 的 。 在 这 种 情况 下 ， 就 出 现 了 局 部 数据 仓库 和 
全 局 数据 仓库 。 局 部 数据 仓库 是 在 远程 站 点 上 提供 和 处 理 数 据 ， 而 全 局 数据 仓库 提供 的 
是 在 整个 业务 范围 集成 后 的 数据 。 

* 数据 仓库 环境 包括 大 量 的 数据 ， 它 们 分 布 在 多 个 处 理 器 上 。 从 钦 辑 上 看 只 有 一 个 数据 仓 
库 , 但 从 物理 上 看 ， 存 在 许多 有 紧密 联系 但 存放 在 不 同 的 处 理 器 上 的 数据 仓库 。 这 种 配 
置 可 称 为 技术 上 分 布 的 数据 仓库 。 

“数据 仓库 环境 是 以 一 种 不 执 调 的 方式 建立 起 来 的 一 一 首先 ， 建 立 一 个 数据 仓库 ， 然 后 再 
建立 另 一 个 。 不 同 数据 仓库 缺乏 协调 性 的 原因 通常 是 政策 和 机 构 上 的 差异 。 这 种 情况 可 
称 为 独立 演进 的 分 布 式 数据 仓库 。 

不 同类 型 的 分 布 式 数据 仓库 都 有 各 自 所 涉及 和 要 考虑 的 因素 ， 我 们 将 在 随后 各 节 对 这 些 

因素 进行 探讨 。 


6.1.1 局 部 数据 仓库 和 全 局 数据 仓库 


当 一 个 企业 遍及 世界 各 地 时 ， 总 部 和 分 支 机 构 都 需要 信息 。 中 心 数据 仓库 负责 采集 数据 ， 
同时 可 以 满足 总 部 对 企业 信息 需求 。 但 是 对 于 分 布 在 不 同 的 国家 的 各 个 分 支 机构 ， 仍 然 有 建 
立 各 自 的 数据 仓库 的 需要 。 在 这 种 情况 下 ， 需 要 建立 分 布 式 数据 仓库 。 数 据 将 会 以 集中 式 和 
分 布 式 两 种 方式 存在 。 

当 一 个 大 企业 有 许多 不 同 的 业务 时 ， 又 需要 有 局 部 /全 局 分 布 式 数据 仓库 。 尽 管 在 不 同 范 
围 的 业务 间 可 能 很 少 或 者 没有 必要 集成 ， 但 是 从 企业 层面 上 (至 少 对 于 财务 ) 来 讲 ， 在 业务 
间 需 要 有 集成 。 不 同 范围 的 业务 可 能 除了 在 财务 上 没有 重合 的 地 方 ; 也 可 能 存在 相当 大 的 业 
务 集成 ， 包 括 客户 、 产 品 、 销 售 等 等 。 在 这 种 情况 下 ， 企 业 集中 式 数据 仓库 就 由 不 同 范围 的 
业务 的 数据 仓库 来 支持 。 
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在 某 些 情况 下 ， 数 据 仓 库 的 一 部 分 以 集中 方式 〈 即 ， 全 局 ) 存在 ， 而 另外 一 些 部 分 则 以 
分 布 方式 (人 如， 局部) 存在 。 

为 了 便于 理解 基于 地 理 或 业务 分 布 的 分 布 式 数据 仓库 在 什么 情况 下 起 作用 ， 考 虑 一 些 业 
务 处 理 的 基本 拓扑 结构 。 图 6-1 显 示 了 一 种 常见 的 业务 处 理 拓扑 结构 


站 点 A 让 


总 部 
操作 型 处 理 


| 


图 6-1 许多 企业 典型 的 业务 处 理 拓 扑 图 


如 图 6-1 所 示 ， 某 企业 设 有 一 个 总 部 ， 负 责 处 理 所 有 的 业务 。 如 果 在 基于 地 理 分 布 的 分 支 
机 构 上 有 一 些 业务 处 理 的 话 ， 这 些 处 理 也 是 非常 基本 的 ， 可 能 只 有 一 些 旺 终端 。 在 这 种 拓扑 
结构 中 ， 没 有 必要 建立 分 布 式 数据 仓库 环境 。 

当 分 支 机 构 出 现 基 本 数据 和 事务 的 获取 活动 时 ， 局 部 处 理 的 复杂 性 将 有 所 提高 ， 如 图 6-2 
所 示 。 在 图 6-2 中 ， 在 分 支 机 构 上 有 人 少量 的 基本 处 理 。 一 旦 事务 在 局 部 发 生 并 被 捕获 ， 它 们 就 
传送 到 总 部 进行 进一步 处 理 。 


~ | 站 点 C 
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操作 型 处 理 
FE 
捕获 信息 活动 
图 6-2 某 些 场合 ， 在 站 点 层 处 理 一 些 基 本 业务 活动 


在 这 种 简单 的 拓扑 结构 中 ， 也 不 需要 建立 分 布 式 数据 仓库 环境 。 从 业务 的 观点 来 看 ， 在 
分 支 机 构 上 并 没有 出 现 大 量 的 业务 ， 在 分 支 机 构 所 做 的 决策 也 不 需要 数据 仓库 。 

现在 , 将 图 6-3 所 示 的 业务 处 理 拓扑 结构 同 前 两 种 处 理 拓 扑 结构 进行 一 下 对 比 。 在 图 6-3 中 ， 
相当 多 的 处 理 是 在 分 支 机 构 进行 的 : 销售、 收银 、 付 账 (分 支 机 构 上 )。 就 操作 型 处 理 来 说 ， 
分 支 机 构 站 点 是 自主 的 。 仅 偶然 地 或 对 于 某 些 特定 的 处 理 需 要 将 数据 和 业务 活动 发 送 到 总 部 
处 理 。 在 总 部 存 有 一 份 集中 的 公司 财务 平衡 表 。 对 于 这 类 企业 来 说 ， 采 用 某 种 形式 的 分 布 式 
数据 仓库 是 必要 的 。 

接 下 来 、 更 常见 的 当然 是 在 分 支 机 构 上 要 做 大 量 的 处 理 。 例 如 : 生产 商品 、 雇 佣 销 售 人 
员 、 行销 、 建 立 完整 的 子 公司 等 等 。 当 然 ， 分支 机 构 还 要 和 所 有 其 他 部 门 做 同一 份 财务 平衡 
表 。 但 总 的 来 看 ,分 支 机 构 有 效 地 运营 它们 的 业务 ， 只 有 很 少数 量 的 企业 级 业务 集成 。 在 这 
种 情况 下 ， 在 分 支 机 构建 立 一 个 完整 的 数据 仓库 很 有 必要 。 
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图 6-3 在 另 一 类 分 布 式 数 据 仓 库 谱 系 中 ， 在 分 支 机 构 要 做 许多 操作 型 处 理 


正如 分 布 式 商业 模型 有 很 多 种 一 样 ， 我 们 即将 讨论 的 局 部 /全 局 分 布 式 数据 仓库 也 有 很 多 
种 。 那 种 认为 局 部 /全 局 分 布 式 数据 仓库 仅 是 一 种 简单 的 两 级 模式 的 看 法 是 错误 的 。 实 际 上 ， 
各 种 分 布 式 数据 仓库 的 分 布 程度 有 很 多 层次 。 

在 大 多 数 企 业 中 ,分支 机 构 的 自主 权 不 大 ， 拥 有 一 个 中 心 数据 仓库 ， 如 图 6-4 所 示 。 


nr] 
、 搞 作 型 处 理 | 站 点 C | 


] 总 部 


数据 仓库 


图 6-4 大 部 分 企业 具有 一 个 集中 控制 和 集中 存储 的 数据 仓库 


局 部 数据 仓库 

局 部 数据 仓库 是 数据 仓库 的 一 种 形式 ， 仅 包含 对 分 支 机 构 有 意义 的 数据 。 例 如 巴西 、 法 
国 和 香港 各 有 一 个 局 部 数据 仓库 。 或 者 小 汽车 零 部 件 、 摩 托 车 和 重型 货车 各 有 一 个 局 部 数据 
仓库 。 每 个 局 部 数据 仓库 都 有 它 自 己 的 技术 、 数 据 、 处 理 器 等 等 。 图 6-5 表 明了 一 系列 局 部 数 
据 仓 库 的 简单 实例 。 

在 图 6-5 中 ， 局 部 数据 仓库 是 为 不 同 地 区 的 分 部 或 不 同 的 技术 联营 组 织 创 建 的 。 局 部 数据 
仓库 除了 作用 环境 是 局 部 的 外 ， 具 有 与 其 他 任何 数据 仓库 相同 的 功能 。 例 如 ， 在 巴西 的 数据 
仓库 不 包含 在 法 国 的 任何 业务 活动 信息 。 小 汽车 零 部 件数 据 仓 库 也 没有 任何 有 关 摩 托 车 的 信 
息 。 换 句 话说 ， 局 部 数据 仓库 包含 的 是 在 局 部 站 点 上 的 历史 的 和 集成 的 数据 。 局 部 数据 仓库 
间 的 数据 或 数据 结构 不 需要 协调 一 致 。 

全 局 数据 仓库 

当然 ， 金 局 数据 仓库 也 是 需要 的 ， 如 图 6-6 所 示 。 全 局 数据 仓库 的 范围 涉及 整个 企业 或 组 
织 ， 而 企业 内 部 的 每 个 局 部 数据 仓库 的 范围 只 涉及 各 自 服务 的 局 部 站 点 。 例 如 ， 在 巴西 的 数 
据 仓 库 不 用 和 在 法 国 的 数据 仓库 协调 一 致 或 共享 数据 ， 但 在 巴西 的 局 部 数据 仓库 必须 与 在 芝 
加 哥 的 公司 总 部 数据 仓库 共享 数据 。 又 如 小 汽车 零 部 件数 据 仓库 不 用 和 摩托 车 数据 仓库 共享 
数据 ， 但 是 必须 和 在 底特律 的 总 部 数据 仓库 共享 数据 。 全 局 数据 仓库 的 范围 是 在 企业 级 集成 
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的 业务 。 有时， 企业 集成 数据 相当 多 ， 而 有 的 时 候 则 非常 少 。 同 局 部 数据 仓库 一 样 ， 全 局 数 
据 仓 库 也 包含 历史 数据 。 局 部 数据 仓库 的 数据 源 如 图 6-7 所 示 ， 可 看 出 它们 的 数据 来 源 于 相应 
的 操作 型 系统 。 企 业 全 局 数据 仓库 的 数据 来 源 通 常 是 局 部 数据 仓库 ， 有 时 ， 全 局 数据 仓库 也 
可 能 直接 更 新 。 


欧洲 


一 中] 
亚洲 
局 
站 点 B 


局 部 数据 仓库 | 全 局 数据 仓库 


局 部 数据 仓库 





所 有 Tandem 公 司 
荣 作 型 外 
操作 型 处 理 局 部 数据 仓 上 
局 部 数据 仓库 


结合 IBM, DEC, Tandem 


局 部 数据 仓库 | 全 局 数据 仓库 


图 6-5 需 创建 两 级 数据 仓库 的 一 些 情形 


全 局 数据 仓库 中 包括 了 必须 在 企业 级 集成 的 信息 。 在 许多 情况 下 ， 全 局 数据 仓库 仅仅 包 
括 财 务 信 息 ; 另外 一 些 情况 ， 全 局 数据 仓库 则 可 能 包含 客户 、 产 品 等 集成 的 信息 。 有 相当 多 
的 信息 专属 或 仅 用 于 分 支 机 构 ， 而 其 他 企业 通用 信息 则 需要 在 企业 层次 上 共享 和 管理 。 全 局 
数据 仓库 中 包括 了 那些 需要 全 局 管理 的 数据 。 

研究 不 同 的 局 部 数据 仓库 数据 的 共性 是 一 个 很 有 意义 的 问题 。 图 6-8 表 明 每 个 局 部 数据 仓 
库 都 有 自己 独特 的 数据 和 结构 。 在 巴西 的 数据 仓库 中 可 能 有 许多 亚马逊 河上 运输 货物 的 信息 ， 
这 些 信息 在 香港 和 法 国 是 没有 用 的 。 相 反 地 ， 在 法 国 的 数据 仓库 可 能 存储 着 法 国贸 易 团 体 和 
欧洲 贸易 的 信息 ， 但 是 对 香港 和 巴西 来 说 ， 意 义 很 小 。 

再 如 对 于 小 汽车 零 部 件数 据 仓库 ， 在 小 汽车 零 部 件数 据 仓 库 、 摩 托 车 数据 仓库 和 重型 货 








128 莫 6 间 


车 数据 仓库 之 间 可 共享 的 有 意义 的 是 火花 塞 的 信息 ， 但 是 摩托 车 部 门 的 轮胎 的 信息 对 重型 货 
车 和 小 汽车 零 部 件 部 门 就 没有 意义 。 这 就 是 指 局 部 数据 仓库 的 共性 和 个 性 。 


Ea 
局 部 操作 |  ……、 2 
总 部 型 处 理 
站 局 部 数据 仓库 局 部 操作 [ 局 部 数据 仓库 


全 局 数据 仓库 


( 举 | 
六 要 

水 

遂 站 


局 部 数据 仓库 


图 6-6 典型 的 分 布 式 数据 仓库 的 可 能 形式 





图 6-7 从 局 部 操作 型 环境 到 局 部 数据 仓库 的 数据 流 


局 部 数据 仓库 间 数 据 的 重 秋 部 分 或 公用 部 分 是 完全 等 司 的 ， 图 6-8 所 示 的 局 部 数据 仓库 之 
间 的 无 论 什么 数据 、 处 理 过 程 或 定义 都 没有 必要 协调 。 . 

然而 ， 假 定 某 企 业内 一 个 站 点 和 另 一 个 站 点 间 的 数据 存在 自然 重 公 是 合理 的 。 如 果 存 在 
这 样 的 交叉 部 分 ， 那 么 最 好 将 这 些 数 据 存放 在 爹 局 数据 仓库 中 。 图 6-9 表 明 全 局 数据 仓库 中 数 
据 来 自 于 现 有 的 局 部 操作 型 系统 的 情形 。 公 有 数据 可 能 包含 财务 信息 、 客 户 信 息 、 零 售 商 的 
信息 等 等 。 

全 局 和 局 部 数据 的 重要 

图 6-9 显 示 数 据 正 从 局 部 数据 仓库 环境 转 入 到 全 局 数据 仓库 环境 。 数 据 可 能 同时 存在 两 种 
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数据 仓库 中 ， 当 数据 导入 到 全 局 数据 仓库 中 时 有 一 个 简单 的 数据 转换 。 例 如 ， 一 个 在 局 部 数 
据 仓 库 中 以 港币 存储 的 信息 在 转 入 全 局 数据 仓库 时 需要 转换 为 美元 。 再 如 在 法 国 数据 仓库 中 
的 信息 可 能 是 用 公制 描述 的 ， 但 在 转 入 全 局 数据 仓库 时 要 转换 为 英制 。 





局 部 操作 
型 处 理 


图 6-8 局 部 数据 仓库 间 的 数据 及 结构 是 非常 不 同 的 


站 点 A 





ee 


局 部 数据 仓库 
图 6-9 金 局 数据 仓库 中 数据 来 自 于 远程 的 操作 型 系统 
全 局 数据 仓库 中 包含 的 是 企业 级 公共 数据 和 集成 的 数据 。 分 布 式 数据 仓库 环境 成 功 的 关 


键 就 是 如 何 将 局 部 操作 型 系统 中 的 数据 映射 到 全 局 数据 仓库 的 数据 结构 中 ， 如 图 6-10 所 示 。 
这 种 映射 决定 哪些 数据 要 进入 到 全 局 数据 仓库 、 数 据 的 结构 、 必 须 做 的 转换 。 映 射 是 爹 局 数 
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据 仓库 设计 的 最 重要 的 部 分 ， 对 于 每 一 个 局 部 数据 仓库 来 说 映射 都 不 同 。 例 如 ， 香 港 的 数据 
如 何 映射 到 全 局 数据 仓库 的 方式 和 巴西 的 数据 如 何 映射 到 全 局 数据 仓库 是 不 同 的 ， 当 然 也 和 
法 国 数据 仓库 的 数据 如 何 映射 到 全 局 数据 仓库 的 不 同 。 局 部 商业 行为 的 差异 决定 了 映射 到 全 
局 数据 仓库 的 方式 。 

映射 到 全 局 数据 结构 


局 部 操作 局 部 操作 
型 处 理 型 处 理 
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| 全 局 数据 仓库 


图 6-10 全 局 数据 仓库 有 一 个 公共 结构 ， 每 个 局 部 站 点 以 不 同 的 方式 映射 到 公共 结构 


在 创建 全 局 数据 仓库 过 程 中 ， 从 局 部 数据 到 全 局 数据 的 映射 很 可 能 是 关于 建造 全 局 数据 
仓库 的 最 困难 的 部 分 。 

图 6-10 表 明 对 于 某 些 类 型 的 数据 ， 全 局 数据 仓库 有 一 个 公共 的 数据 结构 。 公 共 的 数据 结 
构 包 含 和 定义 企业 内 所 有 的 公有 数据 。 但 是 ， 从 每 个 局 部 站 点 到 全 局 数据 仓库 的 数据 映射 是 
不 同 的 。 换 名 话说 ， 全 局 数据 仓库 是 根据 公共 企业 数据 的 定义 和 标识 集中 定义 和 设计 的 ， 而 
从 已 存在 的 局 部 操作 型 系统 的 数据 映射 是 由 局 部 设计 者 和 开发 者 选择 的 。 

从 局 部 操作 型 系统 到 全 局 数据 仓库 系统 的 数据 上 映射 刚 开 始 设计 时 很 可 能 不 完全 准确 。 但 
是 随 着 时 间 的 推移 ， 用 户 反 馈 信息 的 积累 ， 这 个 映射 将 会 逐步 得 到 完善 。 如 果 对 于 一 个 数据 
仓库 的 反复 式 开 发 ， 那 么 这 种 反复 主要 存在 于 局 部 映射 的 全 局 数据 的 创建 和 完善 。 

已 做 过 讨论 的 局 部 /全 局 数据 仓库 的 一 种 变化 形式 是 将 全 局 数据 仓库 的 数据 缓冲 区 域 保 存 
在 分 支 机 构 。 图 6-11 显 示 ， 每 个 局 部 区 域 在 将 全 局 数据 仓库 数据 传送 到 中 心 位 置 前 先 将 其 组 
冲 。 例如， 在 法 国有 两 个 数据 仓库 ， 一 个 局 部 数据 仓库 用 于 法 国 子 公司 的 决策 ， 在 这 个 数据 
仓库 中 所 有 的 事务 信息 以 法 国法 郎 为 货币 单位 进行 存储 。 另 外 ,在 法 国 还 有 一 个 “缓冲 区 域 ”， 
其 中 的 信息 是 以 美元 为 货币 单位 进行 存储 。 法 国 的 公司 可 以 随意 地 将 自己 的 局 部 数据 仓库 信 
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息 或 者 是 缓冲 区 域 信息 用 于 决策 。 在 许多 情况 下 ， 这 种 方法 可 能 在 技术 上 是 必需 的 。 与 这 种 


方法 相 联 系 的 一 个 重要 问题 是 ， 当 缓冲 全 局 数据 的 局 部 数据 仓库 中 保存 的 缓冲 数据 传送 到 全 
局 数据 仓库 后 应 该 清空 吗 ? 如 果 分 支 机 构 不 删除 这 些 信息 ， 那 么 将 导致 出 现 元 余数 据 。 


Db 占 
te 局 部 操作 
时 型 处 理 












站 局 部 操作 仓库 [] sanan 
局 总 部 站 
全 全 下 人们 全 局 数据 仓库 
x 局 部 操作 (缓冲 区 域 ) 
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型 处 理 
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全 局 数据 仓库 
全 局 数据 仓库 
(缓冲 区 域 ) 


图 6-11 全 局 数据 仓库 可 能 在 局 部 层 上 进行 缓冲 ， 然 后 传送 到 总 部 层 的 全 局 数据 仓库 


在 某 些 情况 下 ， 一 定量 的 元 余数 据 也 是 需要 的 。 对 此 问题 必须 做 出 决定 ， 且 应 提出 处 理 
策略 与 过 程 。 例 如 ， 巴 西 的 数据 仓库 可 能 会 为 它 以 美元 为 货币 单位 的 数据 和 用 于 全 局 的 产品 
描述 而 创建 一 个 缓冲 区 域 。 巴 西 的 子 公司 拥有 以 使 用 巴西 货币 单位 和 产品 描述 的 数据 仓库 。 
巴西 的 公司 为 了 做 报表 和 分 析 可 能 同时 使 用 他 们 自己 的 数据 仓库 和 缓冲 数据 仓库 。 

虽然 任何 主题 域 都 可 以 成 为 最 初 建立 数据 仓库 的 候选 主题 域 ， 许 多 企业 还 是 以 企业 财务 
作为 最 初 一 个 主题 域 。 财 务 是 一 个 好 的 起 点 ， 因 为 : 

* 它 是 相对 稳定 的 。 

。 具有 高 的 可 视 性 。 

* 仅 是 企业 业务 的 一 部 分 (当然 除了 金融 机 构 )。 

* 它 是 企业 的 神经 中 枢 。 

“ 仅 需 处 理 少 量 数据 ， 

对 于 全 局 数据 仓库 来 说 ， 巴 西 、 法 国 、 香 港 的 数据 仓库 都 将 用 于 创建 企业 范围 的 财务 数 
据 仓 库 。 在 巴西 、 法 国 、 香 港 的 业务 操作 中 还 有 很 多 其 他 的 数据 ， 但 只 有 财务 信息 将 会 进入 
全 局 数据 仓库 。 

建造 全 局 数据 仓库 时 ， 必 须 处 理 一 些 特 殊 问 题 。 因 为 就 数据 层 来 说 ， 全 局 数据 仓库 并 不 
符合 典型 的 数据 仓库 结构 。 其 中 一 点 是 细节 数据 (或 者 至 少 是 细节 数据 的 数据 源 ) 存在 于 分 
支 机 构 ， 而 轻 度 综合 数据 存在 于 集中 全 局 层 。 例 如 ， 假 定 一 个 公司 的 总 部 在 纽约 ， 在 远离 总 
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部 的 得 克 萨 斯 州 、 加 利 福 尼 亚 州 和 伊利 诺 伊 州 设 有 分 部 。 这 些 分 部 各 自在 当地 的 细节 级 上 管 
理 销售 和 财务 细节 数据 。 总 部 将 数据 模型 传送 到 各 分 部 ， 各 分 部 将 需要 的 企业 数据 转换 为 完 
成 在 企业 级 上 集成 所 需要 的 数据 形式 。 数 据 在 分 支 机 构 进行 转换 后 ， 传 送 到 纽约 总 部 。 原 始 
和 的、 未 转换 的 细节 数据 仍然 保存 在 分 支 机 构 。 只 有 转换 过 的 、 轻 度 综合 的 数据 才 会 传送 到 总 
部 。 这 是 典型 的 数据 仓库 结构 的 一 种 变化 形式 。 

元 余 

全 局 数据 仓库 和 它 所 支持 的 局 部 数据 仓库 的 问题 之 一 是 数据 的 元 余 或 者 重合 。 图 6-12 显 
示 了 一 种 策略 ， 可 避免 分 支 机 构 和 全 局 层 间 的 数据 元 余 ( 就 此 而 言 ， 全 局 数据 是 存放 在 局 部 组 
冲 区 还 是 存放 在 分 支 机 构 并 不 重要 )。 有 时 ， 一 些 细节 级 的 数据 不 用 经 过 任何 的 转换 或 变化 就 
进入 到 全 局 数据 仓库 。 在 这 种 情况 下 ， 从 全 局 数据 仓库 到 局 部 数据 仓库 就 会 出 现 小 的 数据 重 
登 。 例 如 ， 假 设 在 法 国 的 数据 仓库 中 有 一 笔 交易 的 数据 是 10 000 美 元 ， 这 一 数据 可 能 毫 不 修 
改 地 导入 到 全 局 数据 仓库 中 。 


局 部 操作 局 部 操作 
型 处 理 型 处 理 


互相 排斥 
De 直 [ mr 局 部 数据 仓库 

全 部 数据 仓库 全 部 数据 仓库 
(缓冲 区 域 ) (缓冲 区 域 ) 


图 6-12 数据 可 以 存放 在 局 部 数据 仓库 或 全 局 数据 仓库 ， 但 不 能 在 两 者 中 都 存放 


另 一 方面 ， 多 数 数据 在 从 局 部 数据 仓库 导入 到 全 局 数据 仓库 时 ， 要 经 过 某 种 形式 的 换算 、 
转换 、 重 新 分 类 或 者 汇总 。 在 这 种 情况 下 ， 在 全 局 数据 仓库 和 局 部 数据 仓库 之 间 (严格 地 说 ) 
不 存在 数据 元 余 。 例 如 ， 假 设 在 香港 的 数据 仓库 记录 了 一 笔 175 000 港 元 的 交易 数据 。 这 笔 业 
务 可 能 被 分 成 儿 个 小 的 业务 ， 交 易 额 可 能 会 被 换算 ， 业 务 可 能 和 其 他 的 一 些 业务 合并 等 等 。 
在 这 种 情况 下 ， 局 部 数据 仓库 的 细节 数据 和 全 局 数据 仓库 的 数据 之 间 一 定 存在 一 种 关系 。 但 
是 在 两 种 环境 之 间 不 会 有 数据 元 余 。 

如 果 局 部 数据 仓库 和 全 局 数据 仓库 间 存 在 大 量 的 数据 元 余 ， 即 表明 没有 正确 定义 不 同 级 
别 的 数据 仓库 所 辖 的 范围 。 当 局 部 数据 仓库 和 全 局 数据 仓库 间 出 现 大 量 的 数据 元 余 时 ， 出 现 
蜘蛛 网 系统 将 是 迟早 的 事 。 出 现 这 样 的 系统 会 带 来 很 多 问题 一 一 不 一 致 的 结果 、 不 能 很 容易 
地 创建 新 系统 、 操 作 的 代价 问题 等 等 。 为 此 ， 除 了 少量 数据 的 偶然 重 叙 外 ， 应 当 对 局 部 数据 
和 全 局 数据 实行 互 斥 。 这 是 一 种 很 重要 的 策略 。 

局 部 和 全 局 数据 存 取 

与 管理 和 构造 局 部 和 全 局 数据 仓库 所 需要 的 策略 类 似 ， 有 一 个 数据 存 取 问 题 。 初 看 起 来 ， 
这 个 问题 好 像 微 不 足 道 。 每 个 人 可 以 获取 所 有 数据 的 策略 似乎 是 显而易见 的 。 但 实际 上 , 却 
存在 一 些 重要 的 分 歧 和 细微 差别 。 

图 6-13 表 明了 一 些 局 部 站 点 存 取 全 局 数据 的 情形 。 这 些 存 取 方式 正确 与 否 是 与 查询 有 关 
的 ， 它 们 可 能 是 或 者 不 是 数据 仓库 的 正确 使 用 方法 。 例 如 ， 一 个 巴西 的 分 析 人 员 可 能 正在 将 
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巴西 分 部 的 盘 利 与 整个 企业 的 僵 利 进行 比较 分 析 。 或 许 一 个 法 国人 正在 察看 整个 企业 的 盘 利 
能 力 。 如 果 分 支 机 构 分 析 的 意图 是 提高 分 支 机 构 的 效益 ， 那 么 在 分 支 机 构 对 全 局 数据 的 存 取 
可 能 就 是 一 个 好 的 政策 。 如 果 在 存 取 过 程 中 ， 全 局 数据 作为 信息 使 用 ， 并 且 仅 访问 一 次 以 提 
高 局 部 业务 运作 ， 那 么 在 分 支 机 构 上 这 种 存 取 方式 就 可 能 是 正确 的 。 





图 6-13 需要 解决 的 一 个 重要 问题 是 局 部 站 点 是 否 应 访问 全 局 数据 仓库 


原则 上 ， 局 部 数据 应 局 部 使 用 ， 全 局 数据 应 全 局 使 用 。 但 这 又 会 引发 另 一 个 问题 ， 为 什 
么 全 局 分 析 还 要 在 局 部 处 理 呢 ? 例如 ， 假 设 在 香港 的 一 个 人 将 整个 公司 的 利润 和 其 他 公司 进 
行 比较 。 除 了 这 种 全 局 分 析 最 好 在 总 部 层 进 行 以 外 ， 这 个 分 析 本 身 没 有 设 么 错误 。 这 时 必然 
会 问 : 如 果 在 香港 的 分 析 人 员 发 现 该 公司 没有 与 其 他 公司 很 好 地 竞争 时 会 怎么 办 ?在 香港 的 分 
析 人 员 对 于 这 个 信息 能 做 些 什么 ? 这 信人 可 能 进行 了 全 局 性 的 思考 ， 但 是 并 不 是 全 局 性 的 决 
策 者 。 因 此 ， 如 果 不 是 为 了 提高 局 部 业务 运作 ， 一 个 分 支 机构 的 分 析 人 员 是 否 应 该 为 了 其 他 
目的 察看 全 局 数据 是 受到 质疑 的 。 原 则 上 ， 局 部 业务 分 析 人 员 应 使 用 局 部 数据 。 

另 一 个 问题 是 在 体系 结构 化 信息 环境 中 信息 请 求 的 路 径 选 择 问 题 。 当 仅仅 存在 一 个 中 心 
数据 仓库 时 ， 关 系 不 大 。 但 是 ， 当 数据 分 布 在 一 种 复杂 环境 中 时 ， 例 如 图 6-14 所 示 的 分 布 式 
数据 仓库 中 ， 就 需要 考虑 如 何 确保 信息 请 求 来 自 正确 的 地 方 。 

例如 ， 通 过 查询 局 部 站 点 来 确定 整个 公司 的 薪资 情况 是 不 正确 的 。 还 有 ， 在 中 心 数据 仓 
库 中 查询 上 月 对 在 某 一 特定 站 点 上 某 一 特定 服务 的 承包 人 支付 多 少 费用 也 是 不 正确 的 。 对 于 
局 部 和 全 局 数据 存在 请 求 起 因 的 问题 ， 这 在 简单 的 集中 式 数 据 仓库 环境 中 不 会 过 到 。 

另外 一 个 局 部 /全 局 分 布 式 数据 仓库 技术 的 重要 问题 是 数据 从 局 部 数据 仓库 到 全 局 数据 仓 
库 的 传输 。 对 于 这 个 问题 要 考虑 很 多 因素 : 

*。 从 局 部 环境 到 全 局 环境 数据 传输 的 频率 如 何 ? 一 天 ? 一 周 ? 还 是 一 个 月 ?传输 的 速率 依 

赖 许多 个 因素 。 全 局 数据 仓库 要 求 数据 传输 要 多 快 7 在 分 支 机 构 出 现 了 多 少 业 务 活 动 ? 

要 传输 的 数据 量 是 多 少 ? 

* 从 局 部 环境 到 全 局 数据 仓库 的 传输 是 否 合法 ? 一 些 国家 有 严格 的 规定 来 限制 一 些 特定 数 

据 的 传输 出 入 。 

* 从 局 部 环境 到 全 局 环境 的 数据 传输 要 使 用 什么 样 的 网 络 ? 因特网 足够 安全 吗 ? 足够 可 靠 

吗 ? 在 因特网 上 可 以 安全 地 传输 足够 的 数据 吗 ” 备 份 策 略 是 什么 ?什么 样 的 安全 保护 措 

施 来 确定 所 有 的 数据 已 经 传输 完毕 ? 

“在 从 局 部 环境 到 全 局 环境 数据 传输 过 程 中 ， 应 使 用 什么 样 的 安全 保护 措施 来 判断 数据 是 





134 莫 6 间 








否 被 非法 入 侵 ? 

“为 了 从 局 部 环境 到 全 局 环境 传输 数据 ， 处 理 过 程 的 哪 一 部 分 是 可 见 的 ? 当 数 据 仓 库 的 负 
载 很 重 的 时 候 ， 是 否 还 传输 数据 ? 

“局 部 数据 应 采用 什么 技术 ? 全 局 数据 应 采用 什么 技术 ?将 局 部 技术 转换 为 全 局 技术 必须 
采取 什么 措施 ? 在 转换 过 程 中 会 有 数据 丢失 情况 发 生 吗 ? 


站 点 A 


局 部 操作 
型 处 理 


查询 : “公司 上 个 月 总 的 月 薪 支 出 是 多 少 ?” 





montent| ”| 
查询 :“ 上 月 EDS 在 Tampa 的 设备 维护 费 是 多 少 ?“” 
全 局 数据 仓库 
(缓冲 区 域 ) 国 总 部 
局 部 操作 
型 处 理 









站 点 B 


局 部 操作 
型 处 理 


Rspicieek| 


全 局 数据 仓库 
(缓冲 区 域 ) 


局 部 数据 仓库 


四 
| 


全 局 数据 仓库 
(缓冲 区 域 ) 


图 6-14 正确 响应 查询 需要 引 向 体系 结构 的 不 同位 置 


与 数据 传输 到 全 局 数据 仓库 环境 相关 的 问题 有 很 多 。 有 时 候 ， 这 些 问 题 简单 、 平 凡 ; 但 
有 有 时候 却 绝 不 是 如 此 。 

本 章 没 有 论述 有 关 全 局 操作 型 数据 这 一 相对 独立 的 问题 。 到 目前 为 止 ， 本 章 假定 每 个 局 
部 站 点 具有 自己 特有 的 操作 型 数据 和 处 理 。 然 而 ， 局 部 站 点 的 操作 型 系统 间 存 在 某 些 共性 是 
完全 可 能 的 。 在 这 种 情况 下 ， 某 种 程度 的 公司 操作 型 数据 和 处 理 或 许 是 可 取 的 。 例 如 ， 有 些 
客户 可 能 需要 进行 全 局 的 处 理 ， 比 如 像 可 日 可 乐 、 麦当劳 、IBM 和 AT&T 这 样 的 大 型 跨国 公司 。 
对 价格 、 订 货 量 和 货运 的 全 局 性 考虑 可 能 会 与 局 部 性 的 考虑 不 同 。 在 这 种 全 局 操作 型 处 理 当 
中 ， 全 局 操作 型 数据 仅仅 成 为 全 局 数据 仓库 的 另 一 个 数据 源 。 但 是 在 操作 型 数据 和 DSS 信息 
型 数据 之 间 还 是 存在 差别 。 

分 布 式 数据 仓库 的 整个 问题 是 比较 复杂 的 。 在 简单 的 集中 式 数据 仓库 环境 下 ， 和 角色 和 职 
责 是 相当 明了 的 。 但 是 ， 在 分 布 式 数据 仓库 环境 下 ， 范 围 、 协 调 、 元 数据 、 响 应 能 力 、 数 据 
传输 以 及 局 部 数据 映射 等 问题 确实 使 得 整个 环境 复杂 化 了 。 

对 于 全 局 数据 仓库 主要 考虑 的 问题 之 一 是 数据 仓库 应 读 集 中 创建 还 是 全 局 创建 。 说 起 全 
局 数据 仓库 应 该 进行 集中 设计 和 创建 ， 明 显 是 一 个 错误 。 对 于 全 局 数据 仓库 集中 式 构造 (最 
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好 ) 仅 有 一 个 边缘 的 局 部 系统 进入 全 局 数据 仓库 。 这 就 是 说 在 局 部 系统 和 全 局 数据 的 需求 之 
间 的 映射 定义 是 集中 式 的 ， 而 不 是 局 部 的 。 为 了 成 功 ， 必 须 对 映射 处 理 进 行 局 部 管理 和 控制 。 
换 句 话说 ,创建 和 装载 全 局 数据 仓库 惟一 最 大 的 困难 是 局 部 数据 和 全 局 数据 的 映射 。 这 些 映 
射 关系 不 能 集中 生成 ， 必 须 局 部 生成 。 

例如 ， 假 设 总 部 打算 把 巴西 的 数据 映射 到 全 局 数据 仓库 。 这 会 带 来 以 下 几 个 问题 : 

* 葡萄牙 语 不 是 总 部 的 母语 。 

“总 部 人 员 不 理解 分 支 机 构 的 业务 和 习惯 。 

“总 部 人 员 不 理解 分 支 机 构 的 传统 应 用 。 

“总 部 人 员 不 理解 局 部 数据 仓库 。 

“ 总 部 人 员 不 能 随时 知道 局 部 系统 每 日 的 变化 。 

为 什么 从 局 部 数据 到 全 局 数据 仓库 环境 的 映射 不 能 由 总 部 人 员 来 集中 创建 有 大 量 的 原因 。 
因此 ， 分 支 机 构 必 然 是 参与 全 局 数据 建造 的 一 部 分 。 

最 后 一 个 意见 是 分 支 机 构 的 数据 应 当 采 用 尽 可 能 灵活 的 形式 。 这 也 就 是 说 分 支 机 构 的 数 
据 必 然 是 以 关系 型 的 方式 在 低 粒 度 级 别 上 进行 组 织 。 如 果 分 支 机 构 数据 是 以 一 个 星 形 连 接 的 
多 维 模型 进行 组 织 的 话 ， 要 将 其 分 割 、 重 组 用 来 给 全 局 数据 仓库 提供 数据 是 相当 困难 的 。 


6.1.2 技术 分 布 式 数据 仓库 


分 布 式 数据 仓库 的 需求 不 仅 由 于 公司 分 布 在 多 个 地 区 或 有 多 条 生产 线 ， 也 有 其 他 一 些 因 
素 。 例 如 ， 一 种 因素 是 把 数据 仓库 置 于 销售 商 的 分 布 式 技术 基础 上 ， 客 户 机 /服务 器 技术 非常 
适合 这 种 需求 。 

第 一 个 问题 是 ， 数 据 仓库 能 采用 分 布 式 技术 吗 ? 答案 是 肯定 的 。 第 二 个 问题 是 ， 数 据 仓 
库 采 用 分 布 式 技术 的 优 缺 点 是 什么 ? 分布 式 数据 仓库 的 第 一 个 优点 是 引入 代价 低 。 换 名 话说 ， 
当 最 初 采用 分 布 式 技术 所 付出 的 数据 仓库 的 软 硬 件 代价 比 最 初 采 用 传统 的 大 型 集中 式 硬 件 所 
付出 的 代价 低 得 多 。 第 二 个 优点 是 存放 在 数据 仓库 中 的 数据 量 在 理论 上 没有 限制 。 如 果 数 据 
仓库 中 的 数据 量 开始 超过 一 个 分 布 式 处 理 器 的 处 理 能 力 ， 那 么 可 在 网 络 中 加 入 另 一 个 处 理 器 。 
所 以 可 实现 持续 增加 数据 。 只 要 数据 过 多 ， 就 可 以 加 入 新 的 处 理 器 。 

图 6-15 所 示 的 进程 描述 了 一 种 数据 仓库 中 数据 量 可 能 无 限 增加 的 情况 。 这 是 具有 吸引 力 
的 ， 因 为 数据 仓库 将 包含 很 多 的 数据 (但 并 不 是 无 限量 )。 

但 是 随 之 又 带 来 另 一 些 问 题 。 当 数据 仓库 中 的 处 理 器 ( 即 服务 器 ) 扩 展 到 一 定数 量 时 ， 网 
络 上 会 出 现 过 量 的 传输 负载 。 当 一 个 请 求 需要 的 数据 分 散在 多 个 服务 器 上 时 ， 访 问 多 个 服 
务 器 带 来 数据 传输 的 增加 。 例 如 ， 假 设 一 台 服 务 器 存 有 1998 年 的 数据 ， 另 一 台 存 有 1999 年 
的 数据 ， 还 有 一 台 存 有 2000 年 的 ， 第 四 台 存 有 2001 年 的 。 当 一 个 查询 需要 访问 从 1998 年 至 
2001 年 的 数据 时 ， 这 个 查询 的 结果 集 必 须 访 问 存 有 不 同年 限 数据 的 服务 器 。 在 这 种 情况 下 ， 
从 四 个 服务 器 上 得 到 的 数据 必须 进行 汇总 。 在 这 一 数据 处 理 过 程 中 ， 将 会 增 大 网 络 的 传输 
负载 。 

问题 不 仅仅 出 现在 一 个 查询 要 访问 存储 在 多 个 服务 器 的 数据 ， 而 且 出 现在 需要 从 一 台 服 
务 器 上 传输 大 量 的 数据 。 例 如 ， 假 设 一 个 查询 操作 打算 存 取 1999 年 和 2000 年 的 所 有 数据 的 话 ， 
就 要 从 一 个 或 另 一 个 服务 器 中 获得 数据 。 图 6-16 杠 述 了 一 个 查询 希望 访问 来 自 多 个 服务 器 的 
大 量 数据 。 
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一 个 服务 器 存放 数据 
SEE 一 仓库 中 的 所 有 数据 


存放 数据 的 服务 器 的 数目 可 根据 数据 仓 
库 的 需求 无 限 扩张 《至 少 理论 上 如 此 ) 


图 6-15 添加 服务 器 来 保存 数据 仓库 中 数据 的 进程 


数据 仓库 





图 6-16 一 个 查询 访问 多 个 数据 仓库 服务 器 上 的 大 量 数据 


当然 存在 着 一 些 技术 和 方法 来 处 理 分 布 在 多 个 服务 器 上 的 数据 仓库 问题 。 确 定 无 疑 的 是 ， 
随 着 时 间 的 推移 ， 数 据 仓库 变 得 越 来 越 庞 大 ， 服 务 器 越 来 越 多 ， 这 个 问题 也 就 越 来 越 严 重 。 
在 分 布 式 数据 仓库 的 早期 ， 只 有 很 少 的 数据 和 服务 器 ， 这 个 问题 还 不 明显 ， 但 是 数据 仓库 越 
成 熟 ， 数 据 和 处 理 环 境 就 越 难于 管理 。 


6.1.3 独立 开发 的 分 布 式 数据 仓库 


在 开发 第 三 种 类 型 的 分 布 式 数据 仓库 的 过 程 中 ， 多 个 独立 的 数据 仓库 是 同时 开发 的 ， 且 
数据 仓库 之 间 没 有 进行 协调 和 约束 。 

许多 企业 采用 数据 仓库 技术 时 ， 首 先是 为 财务 或 市 场 部 门 建立 数据 仓库 。 一旦 获得 成 功 ， 
-企业 内 其 他 部 门 就 很 自然 地 希望 在 此 基础 上 建立 相应 的 数据 仓库 。 总之， 数据 仓库 体系 结构 
设计 员 需 要 管理 和 协调 企业 内 的 多 个 数据 仓库 项 目 。 


6.2 开发 项 目的 本 质 特征 


数据 体系 结构 设计 者 管理 多 个 数据 仓库 开发 项 目 时 ， 所 面临 的 首要 问题 是 开发 项 目 本 身 
的 性 质 。 只 有 了 解 这 些 数据 仓库 开发 项 目的 类 型 以 及 它们 同 整个 体系 结构 的 关系 ， 否 则 很 难 
有 效 地 管理 和 协调 这 些 开 发 项 目 。 因 为 不 同方 法 所 涉及 的 开发 问题 差异 较 大 ， 所 以 不 同类 型 
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的 数据 仓库 项 目 需要 采用 完全 不 同 的 管理 方案 。 

多 个 数据 仓库 开发 项 目 可 以 分 为 四 种 典型 情况 ， 这 些 情 况 大 体 如 图 6-17 所 示 。 

首先 ， 图 6-17 中 给 出 一 种 较 少 出 现 的 情况 ， 即 一 个 公司 的 业务 是 完全 分 离 的 、 非 集成 的 ， 
对 应 的 数据 仓库 是 由 不 同 的 开发 小 组 独立 创建 的 。 不 同 的 业务 独立 向 公司 汇报 情况 ， 但 是 除了 
共享 公司 名 称 ， 在 公司 内 没有 业务 集成 或 者 数据 共享 。 这 种 公司 结构 在 现实 中 是 存在 的 ， 但 不 
常见 。 在 这 种 没有 任何 业务 集成 的 罕见 情况 下 ， 一 项 数据 仓库 开发 项 目 与 另 一 项 数据 仓库 开发 
项 目 间 发 生 冲 突 的 危险 几乎 没有 。 相 应 地 ， 数 据 仓库 开发 项 目 间 很 少 或 不 需要 管理 和 协调 。 


这 局 运 用 需 碎 二 


数据 仓库 A 数据 仓库 B 数据 仓库 C 数据 仓库 D 
业务 范围 A 业务 范围 B 业务 范围 C 业务 范围 D 


完全 非 集成 的 业务 范围 各 拥有 自己 的 数据 仓库 


吓 居 有 由 本 二 王 


东北 部 数据 仓库 ”中 西部 数据 仓库 西部 数据 仓库 西南 部 数据 仓库 


同一 数据 仓库 具有 分 布 式 部 分 


轻 度 汇总 的 池 ee OLAP 
细节 数据 





数据 仓库 的 细节 级 的 不 同 的 非 分 布 式 部 分 
图 6-17 多 个 小 组 建造 数据 仓库 的 四 种 可 能 方式 ， 每 种 均 与 其 他 各 种 不 同 


多 个 数据 仓库 项 目 同 时 出 现 的 第 二 种 情况 是 ， 各 个 开发 小 组 负责 创建 同一 个 数据 仓库 的 
不 同 部 分 ， 导 致 多 个 数据 仓库 开发 项 目 同 时 出 现 。 在 这 种 情况 下 ， 同 一 级 细节 数据 是 由 不 同 
开发 小 组 创建 的 ， 但 是 它们 分 散在 不 同 的 地 理 位 置 。 例 如 ， 某 汽车 制造 商 在 美国 的 底特律 和 
加 拿 大 分 别 建 有 一 个 产品 制造 数据 仓库 。 两 个 数据 仓库 中 数据 的 细节 程度 是 一 样 的 。 除 非 采 
取 特 殊 措 施 ， 否 则 在 使 用 其 进行 分 析 时 ， 必 定 会 出 现 大 量 的 冲突 。 前 一 种 情况 很 少 出 现 ， 而 
这 种 情况 却 是 常见 的 。 由 于 这 种 情况 较 常见 ， 所 以 值得 充分 关注 。 为 了 从 总 体 上 获得 满意 的 
集成 效果 ， 要求 开 发 小 组 间 进 行 密切 协作 。 若 开发 项 目 不 协 调 ， 则 大 量 数据 的 元 余 存 储 和 处 
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理 将 可 能 导致 较 大 的 浪费 。 如 果 数 据 存在 元 余 ， 那 么 建立 的 数据 仓库 的 效率 可 能 很 低 ， 因 为 
DSS 环境 中 将 存在 典型 的 蜘蛛 网 问题 。 

第 三 种 情况 是 ， 不 同 小 组 负责 建立 数据 仓库 环境 中 的 不 同 级 的 数据 〈 即 汇总 数据 和 细节 数 
据 )。 像 前 面 的 情况 ， 这 种 情况 也 很 常见 。 由 于 多 种 原因 ， 这 种 情况 比 前 面 提 到 的 两 种 情况 容 
易 管理 。 因 为 各 层 中 数据 的 不 同 ， 它 们 的 作用 和 可 能 性 也 不 相同 。 两 个 小 组 之 间 的 协调 就 有 
可 能 是 简单 的 运作 。 例 如 ， 一 个 小 组 可 能 在 最 低 的 细节 层 上 创建 一 个 捕 提 和 分 析 每 一 个 银行 
事务 的 数据 仓库 。 而 另 一 个 小 组 的 分 析 人 员 可 能 正 为 已 汇总 到 月 份 层 的 数据 创建 客户 记录 ，。 
两 个 小 组 间 的 接口 是 很 简单 的 : 细节 级 的 银行 事务 数据 在 月 份 层 上 汇总 后 生成 聚集 /汇总 记录 。 

第 四 种 情况 是 ， 多 个 小 组 试图 以 非 分 布 式 的 方式 建立 数据 仓库 环境 中 数据 当前 细节 级 的 
不 同 部 分 。 这 种 情形 很 少 出 现 ， 但 是 一 日 发 生 ， 就 必须 特别 注意 。 最 后 这 种 情况 非常 关键 ， 
数据 体系 结构 设计 者 必须 知道 问题 所 在 以 及 如 何 协 调 它们 。 

对 于 每 种 情况 ， 下 面 我 们 将 就 所 涉及 的 问题 和 各 自 的 优 缺 点 分 别 进 行 讨论 。 


完全 无 关 的 数据 仓库 


完全 无 关 的 数据 仓库 的 建立 和 运作 如 图 6-18 所 示 。 某 公司 有 四 种 业务 : 高 尔 夫 球场 管理 、 
炼 钢 厂 、 小 额 银行 业务 和 快餐 联营 。 业 务 间 没有 任何 集成 :一 种 业务 的 客户 可 能 是 另 一 种 业 
务 的 客户 ,但 两 种 客户 之 间 没 有 联系 。 因 此 对 将 来 的 数据 仓库 项 目 间 也 不 需要 进行 协调 。 从 
建 模 到 基本 技术 的 选择 ( 即 平台 、DBMS、 存 取 工 具 、 开 发 工具 等 ) 的 所 有 机 制 ， 每 种 业务 的 
运作 均 可 完全 独立 地 进行 。 


了 


数据 仓库 A 数据 仓库 B 数据 仓库 C 数据 仓库 D 
快餐 联营 炼 钢 广 小 额 银行 业务 高尔夫 球场 管理 


图 6-18 四 个 完全 独立 的 业务 部 门 在 业务 级 没有 或 很 少 有 数据 集成 
即使 对 于 完全 自主 的 业务 ， 在 某 一 层 上 也 是 必须 集成 的 : 财务 平衡 表 。 如 果 各 种 不 同 的 业 
务 对 一 个 财务 实体 负责 ， 那 么 在 财务 平衡 表层 上 就 必须 集成 。 在 这 种 情况 下 ， 可 能 需要 建立 一 
个 企业 数据 仓库 来 反映 企业 财务 。 图 6-19 表 明了 一 个 在 各 种 不 同业 务 之 上 的 企业 财务 数据 仓库 。 





企业 财务 数据 模型 


数据 仓库 A 数据 仓库 B 数据 仓库 C 数据 仓库 D 
快餐 联营 炼 钢 三 小 额 银行 业务 。 ”高尔夫 球场 管理 


图 6-19 独立 的 业务 部 门 共享 共用 的 企业 财务 数据 
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企业 的 财务 数据 仓库 包含 一 些 简单 《和 抽象 ) 的 实体 ， 例 如 人 花费、 收入、 资金 支出 、 折 
旧 等 信息 。 这 些 业务 数据 基本 上 是 在 每 个 平衡 表 中 出 现 的 ， 除 此 之 外 的 业务 数据 即使 有 也 非 
常 少 。( 换 句 话 说 ， 在 财务 数据 仓库 中 没有 公用 企业 描述 信息 ， 诸 如 客户 、 产 品 、 销 售 等 。) 
当然 ， 图 6-19 描 述 的 企业 财务 数据 仓库 中 的 数据 可 能 来 自 局 部 数据 仓库 或 独立 运作 企业 层 中 
所 出 现 的 操作 型 系统 。 

在 分 支 机 构 元 数据 是 至 关 重 要 的 。 如 果 有 一 个 企业 财务 数据 仓库 ， 那 么 企业 财务 层 也 需 
要 元 数据 。 但 是 在 这 种 情况 下 ， 由 于 不 存在 真正 的 业务 集成 ， 因 此 没 必要 把 任何 元 数据 捆绑 
在 一 起 。 


6.3 分 布 式 数据 仓库 的 开发 


与 无 关 的 数据 仓库 模式 不 同 ， 大 部 分 企业 内 的 部 门 间 存 在 某 种 程度 的 集成 。 很 少 的 企业 
是 像 图 6-19 所 示 的 那样 自主 的 。 更 常见 的 多 个 数据 仓库 项 目的 开发 形式 如 图 6-20 所 示 。 


| 器 DUD 


非洲 数据 仓 计 ”美国 数据 仓库 ”加拿大 数据 仓库 ”远东 数据 仓库 ”南美 洲 数 据 仓库 
图 6-20 逻辑 上 属于 同一 个 数据 仓库 


在 图 6-20 中 ， 某 公司 在 世界 各 地 诸如 美国 、 加 拿 大 、 南 美 、 远 东 ， 非 洲 等 地 设 有 不 同 的 
分 支 机 构 。 每 个 分 支 机 构 具 有 自己 特有 的 数据 。 机 构 间 不 存在 数据 重合 、 特 别 是 对 于 细 市 事 
务 数据 。 作 为 创建 体系 结构 化 环境 的 第 一 步 ， 公 司 希 望 为 它 的 每 个 分 支 机 构 各 创建 一 个 数据 
仓库 。 在 不 同 的 分 支 机 构 间 存在 某 种 程度 的 业务 集成 。 同 时 假定 在 不 同 的 区 域 ， 业 务 运作 也 
共有 当地 特色 。 这 种 企业 组 织 模式 在 许多 公司 是 很 常见 的 。 

许多 企业 建造 数据 仓库 时 ， 首 先是 为 每 个 不 同 地 域 的 分 支 机 构 各 创建 一 个 局 部 数据 仓库 。 
图 6-21 表 明了 一 个 局 部 数据 仓库 的 构造 情况 。 


| 远东 数据 仓库 
加 拿 大 数据 仓库 


非洲 数据 仓库 | ] 


美国 数据 仓库 南美 洲 数据 仓库 
图 6-21 在 每 个 子 公司 建立 局 部 数据 仓库 
每 个 分 部 根据 自己 的 需要 创建 特有 的 自主 数据 仓库 。 值 得 注意 的 是 ， 至 少 就 事务 数据 而 
言 ， 在 不 同 的 区 域 间 不 存在 元 余 的 细节 数据 。 换 句 话 说， 反映 非洲 事务 的 数据 单元 不 可 能 出 
现在 欧洲 的 局 部 数据 仓库 中 。 
用 这 种 方法 创建 分 布 式 企业 数据 仓库 有 有 几 个 优 缺 点 。 优 点 之 一 是 很 快 完成 。 每 个 局 部 小 
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组 控制 局 部 数据 仓库 的 设计 和 资源 。 它 们 也 乐于 拥有 自主 权 和 控制 权 。 这 样 开发 的 数据 仓库 
的 优点 能 在 整个 企业 内 实时 地 表现 出 来 。 在 6 个 月 内 局 部 数据 仓库 就 能 建 好 、 运 行 并 使 分 支 机 
构 分 公司 受益 。 不 利之 处 是 如 果 部 门 间 的 数据 结构 (不 是 内 容 ) 存 在 共同 性 的 话 ， 这 种 方法 却 不 
能 识别 或 合理 处 理 这 样 的 共同 性 。 
6.3.1 在 分 布 的 地 理 位 置 间 协 调 开发 

另 一 种 方法 就 是 尽量 协调 不 同 的 局 部 组 织 间 的 局 部 数据 仓库 的 开发 项 目 。 这 种 方法 理论 
上 听 起 来 很 合理 ， 但 真正 贯彻 起 来 不 是 太 有 效 。 局 部 开发 小 组 之 间 不 可 能 完全 同步 ， 局 部 开 
发 小 组 则 认为 中 央 开 发 小 组 对 不 同 局 部 开发 小 组 的 协调 工作 阻碍 了 自己 项 目的 进展 。 必 须 提 
出 一 个 新 的 数据 模型 作为 各 个 局 部 数据 仓库 的 设计 基础 。 

当 数 据 仓 库 技术 的 价值 在 分 支 机 构 表现 出 来 后 ， 公 司 就 会 决定 建造 一 个 企业 数据 仓库 


(图 6-22 ) 。 
国 远东 数据 仓库 
加 拿 大 数据 仓库 


非洲 数据 仓库 国 
国 [ we 


美国 数据 仓库 ”企业 数据 仓库 
图 6-22 决定 建立 企业 数据 仓库 
企业 数据 仓库 反映 不 同 地 区 、 不 同 部 门 间 的 业务 集成 。 它 与 局 部 数据 仓库 有 关 ， 但 又 不 
同 。 建 立 企业 数据 仓库 第 一 步 是 为 将 反应 在 企业 数据 仓库 中 的 业务 部 门 建立 企业 数据 模型 、 
一 般 来 说 ， 企 业 数 据 仓 库 采 用 迹 代 开 发 的 方法 。 开 始 时 ， 企 业 数 据 模型 的 规模 较 小 、 比 较 简 
单 且 限 于 一 个 业务 子 集 。 图 6-23 显 示 了 企业 数据 模型 的 建立 。 在 企业 数据 模型 建立 后 ， 将 形 
成 企业 数据 仓库 。 


非洲 数据 仓库 


。 4 企业 数据 模型 | 


美国 数据 仓库 企业 数据 仓库 
图 6-23 建立 企业 数据 模型 
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6.3.2 企业 数据 的 分 布 式 模型 


企业 数据 模型 反映 企业 级 的 业务 集成 ， 因 此 可 能 与 局 部 数据 模型 中 的 某 些 部 分 重 登 。 这 
是 合理 的 也 是 正常 的 。 而 在 其 他 情形 下 ， 企 业 数据 模型 与 局 部 数据 模型 不 同 。 不 管 什么 情况 ， 
都 由 局 部 组 织 来 决定 如 何 使 企业 的 数据 需求 和 局 部 的 数据 提供 能 力 相 适应 。 因 为 局 部 组 织 比 
任何 人 都 更 了 解 自 己 的 数据 ， 也 知道 应 如 何 组 织 和 重组 织 自己 的 数据 以 满足 数据 仓库 中 企业 
数据 设计 的 规范 。 

当 分 支 机 构 间 数据 结构 的 重 又 部 分 设计 得 较 好 时 ， 数 据 内 容 就 不 会 有 大 的 重 关 。 图 6-24 
显示 出 从 分 支 机 构建 立 和 装载 企业 数据 仓库 的 情况 。 







南美 洲 数据 仓库 


企业 数据 仓库 
美国 数据 仓库 
图 6-24 从 不 同 的 自主 运作 分 公司 装 入 的 企业 数据 仓库 


企业 数据 仓库 的 数据 源 可 能 来 自 局 部 数据 仓库 ， 也 可 能 来 自 局 部 操作 型 系统 。 这 完全 应 
在 分 支 机 构 确 定 。 记 录 系 统 的 定义 大 多 需要 几 次 循环 往复 。 

此 外 ， 一 个 重要 的 设计 问题 是 从 技术 角度 考虑 如 何 将 分 支 机 构 的 记录 系统 数据 创建 和 传 
送 到 企业 数据 仓库 。 在 某 些 情况 ， 正 式 “缓冲 ”数据 保留 在 分 支 机 构 。 而 另 一 些 情况 ， 它 们 
被 传送 到 企业 环境 ， 且 在 分 支 机 构 不 可 存 取 。 

通常 ， 企 业 数据 仓库 中 的 数据 在 结构 和 概念 上 都 是 简单 的 。 图 6-25 表 明 企业 数据 仓库 中 
的 数据 对 企业 层 的 DSS 分 析 员 来 说 是 细节 数据 ， 同 时 对 分 支 机 构 的 DSS 分 析 员 来 说 却 是 汇总 数 
据 。 这 种 表面 上 的 矛盾 同 这 样 一 个 事实 是 一 致 的 ， 即 表现 为 汇总 数据 还 是 细节 数据 是 由 观察 
者 的 不 同 角度 决定 的 。 


徊 
南美 洲 数据 仓库 人 
wh 
~ 企业 数据 仓库 


图 6-25 在 一 个 层次 上 是 细节 的 而 在 另 一 个 层次 上 是 汇总 的 
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分 布 式 数据 库 的 企业 数据 仓库 与 完全 无 关 的 各 公司 的 企业 财务 数据 仓库 的 对 比 ， 如 图 
6-26 所 示 。 





十 分 相似 


美国 数据 仓库 
企业 财务 数据 模型 
数据 仓库 A 数据 仓库 B 数据 仓库 C 数据 仓库 D 
快餐 联营 炼 钢 厂 小 额 银行 业务 。 ”高 尔 夫 球 场 管 理 


图 6-26 分 布 式 公司 的 数据 仓库 可 以 非常 类 似 于 一 些 无 关公 司 的 数据 仓库 


分 布 式 公司 的 数据 仓库 在 许多 方面 非常 类 似 于 无 关公 司 的 数据 仓库 ， 诸 如 在 设计 和 运作 
方面 。 然 而 ， 它 们 之 间 存 在 一 个 主要 区 别 。 企 业 分 布 式 数据 仓库 是 对 业务 本 身 的 扩展 ， 反 映 
客户 、 销 售 商 、 产 品 等 的 信息 集成 。 因 此 ， 企 业 分 布 式 数据 仓库 表示 了 业务 本 身 的 体系 结构 。 
但 是 ， 业 务 无 关 的 公司 的 企业 数据 仓库 是 专门 为 财务 服务 的 ， 希 望 财务 数据 仓库 为 公司 各 部 
分 的 其 他 关系 所 使 用 是 不 可 能 实现 的 。 两 个 数据 仓库 的 不 同 是 它们 表达 数据 的 深度 不 同 。 


6.3.3 分 布 式 数据 仓库 中 的 元 数据 


在 整个 分 布 式 的 企业 数据 仓库 中 元 数据 起 着 非常 重要 的 作用 ， 通 过 它 可 以 协调 不 同 地 域 
的 数据 仓库 中 的 数据 结构 。 毫 无 疑问 ， 元 数据 是 实现 一 致 性 和 相 容 性 的 工具 。 


6.4 在 多 种 层次 上 构建 数据 仓库 
一 个 企业 同时 构建 数据 仓库 的 第 三 种 模式 是 不 同 的 开发 小 组 负责 构建 数据 仓库 的 不 同 层 
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次 ， 如 图 6-27 所 示 。 这 种 模式 与 分 布 式 数 据 仓 库 开 发 模式 区 别 很 大 。 如 图 所 示 ，A 组 负责 建造 
高 度 汇总 的 数据 ，B 组 建造 中 度 汇 总 的 数据 ，C 组 建造 当前 的 细节 数据 。 





开发 小 组 A 开发 小 组 B 
轻 度 汇总 的 中] 
一 一 
开发 小 组 C 


图 6-27 不 同 的 开发 小 组 负责 建造 体系 结构 不 同 层 上 的 数据 仓库 的 不 同 部 分 


这 种 数据 仓库 的 多 层 模 式 是 很 常见 的 。 幸 运 的 是 ， 这 种 模式 最 容易 管理 ， 而 且 风 险 最 小 。 

数据 体系 结构 设计 者 主要 关心 的 问题 是 如 何 协调 不 同 开发 小 组 的 工作 ， 包 括 内 容 的 规范 
说 明和 结构 的 描述 以 及 开发 时 间 的 确定 等 。 例 如 ， 如 果 A 组 的 进展 情况 明显 超前 于 B 组 和 C 组 
时 ， 那 么 将 出 现 一 个 问题 ， 即 当 A 组 在 汇总 级 装载 他 们 的 数据 时 ， 要 使 用 的 细节 数据 可 能 还 不 
存在 。 

不 同 的 开发 小 组 同时 建造 同一 数据 仓库 的 不 同 汇总 级 时 ， 一 人 有趣 的 问题 是 ， 正 是 建造 
当前 细节 级 的 开发 小 组 在 使 用 数据 仓库 的 数据 模型 。 图 6-28 显 示 了 这 个 关系 。 


开发 小 组 A 开发 小 组 B 


~ 本 





数据 模型 一 
开发 小 组 C 


图 6-28 正在 开发 最 低 细 节 级 的 开发 组 使 用 该 数据 模型 


数据 仓库 的 数据 模型 直接 反映 了 负责 当前 细节 级 分 析 和 设计 的 开发 小 组 的 设计 和 开发 工 
作 。 当 然 ， 数 据 仓 库 模型 间接 地 反映 了 所 有 开发 小 组 的 需求 。 由 于 其 他 开发 小 组 是 对 当前 细 
节 级 数据 进行 汇总 的 ， 所 以 它们 对 各 自 的 需求 都 有 自己 的 描述 。 在 大 多 数 场合 ， 较 高 汇总 级 
的 开发 小 组 拥有 反映 他 们 特定 需要 的 自己 的 数据 模型 。 

在 数据 仓库 中 管理 建造 不 同 汇总 级 的 多 个 小 组 的 问题 之 一 ， 是 数据 仓库 各 层 采 用 的 技术 
平台 的 问题 。 一 般 来 说 ， 不 同 的 开发 小 组 选用 的 开发 平台 不 同 。 事 实 上 ， 不 同 的 开发 小 组 选 
取 相 同 平台 的 情况 非常 少见 。 这 有 几 个 原因 ， 而 主要 的 是 代价 问题 。 数据 的 细节 级 ， 由 于 处 
理 的 数据 量 大 ， 所 以 要 求 一 个 企业 级 的 平台 。 不 同 汇总 级 ， 特 别 是 在 较 高 的 汇总 级 ， 需 处 理 
的 数据 量 相 对 较 少 ， 所 以 要 求 较 高 的 汇总 级 同 细节 级 采用 同一 平台 (尽管 这 也 是 可 以 的 ) 未 
免 太 过 分 (代价 太 高 )。 

数据 仓库 中 各 种 汇总 级 使 用 的 技术 平台 常常 不 同 于 细节 级 技术 平台 的 另 一 个 原因 是 ， 这 
些 可 选用 的 平台 提供 多 种 多 样 的 特殊 软件 ， 而 许多 是 细节 级 单一 平台 上 所 不 支持 的 。 不 管 数 
据 的 不 同 层次 是 采用 单一 平台 还 是 多 种 平台 ， 都 必须 认真 存储 和 管理 元 数据 ， 以 保证 从 一 个 
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细节 级 到 下 一 层 细节 级 的 连续 性 。 
由 于 数据 仓库 的 不 同 开发 小 组 在 开发 不 同 级 数据 时 通常 采用 不 同 平台 ， 这 就 出 现 了 互 连 


性 问题 。 图 6-29 显 示 了 级 间 的 互 连 性 需求 。 轻 度 汇总 回 ] 四 or 
我 们 从 儿 个 方面 来 强调 互 连 性 问题 。 一 是 在 调用 级 存 

取 的 兼容 性 。 换 句 话说 ， 在 数据 仓库 的 任何 两 级 之 间 构 成 也 pa 

细节 数据 和 汇总 数据 时 所 采用 的 技术 之 间 在 调用 语法 上 是 a 

否 兼容 ”如 果 不 存在 一 定 程度 的 调用 语法 的 兼容 性 ， 那 么 | 


接口 将 不 会 有 用 。 互 连 性 问题 的 另 一 个 方面 是 有 效 带 宽 。 ， sg ja 从 应 的 不 碳 弘 次 之 
如 果 两 级 数据 仓库 中 某 一 级 有 很 大 的 传输 处 理 负载 ， 那 么 有 J es 
两 个 系统 间 的 接口 将 会 成 为 瓶颈 。 EM 

无 论 数据 仓库 开发 小 组 之 间 是 如 何 相互 协作 的 ， 有 一 个 要 求 十 分 明确 : 管理 低级 细节 数 
据 的 开发 小 组 必须 为 在 其 基础 上 汇总 并 建立 新 层次 数据 的 开发 小 组 提供 一 个 正确 的 数据 基础 。 


这 种 要 求 如 图 6-30 所 示 。 , 汇总 
开发 小 组 间 的 协作 可 以 很 简单 ， 即 满足 各 方面 。 和 这 总 9 
需求 的 数据 模型 上 的 一 个 协议 。 如 果 条 件 许可 ， 也 
可 制定 非常 详尽 的 协议 。 开 发 项 目 本 身 的 协调 是 另 人 
一 个 问题 。 不 同 的 开发 小 组 之 间 需 要 遵循 一 定 的 时 e666o8e ee 

间 顺 序 安排 ， 以 使 所 有 开发 小 组 在 需要 数据 之 时 都 A 
能 获取 所 需 的 、 在 较 低级 上 收集 到 的 数据 。 图 6-30 细节 级 数据 是 建立 汇 
总 级 数据 的 基础 


6.5 多 个 小 组 建立 当前 细节 级 


当 多 个 开发 小 组 以 非 分 布 式 的 方式 建立 数据 仓库 中 的 当前 细节 级 时 ， 将 出 现 某 些 特殊 情 
形 。 图 6-31 显 示 了 这 种 现象 。 

只 要 开发 当前 细节 级 的 开发 小 组 开发 的 数据 集 是 互 。 开发 小 组 A 开发 小 组 E 
斥 的 ， 就 不 会 出 现 太 多 问题 。 在 这 种 情况 下 ， 只 要 这 些 
开发 小 组 使 用 相同 的 数据 模型 ， 且 不 同 开发 小 组 的 技术 
平台 间 是 兼容 的 ， 就 没有 什么 风险 。 不 幸 的 是 ， 这 种 情 





况 很 少 出 现 。 更 常见 的 是 多 个 开发 小 组 设计 和 装载 的 是 人 人 
一 些 或 全 部 相同 的 数据 。 TE 全 
当 开发 小 组 的 工作 出 现 重 准 时 ， 会 引发 一 系列 问题 。 开发 小 组 C 


第 一 个 问题 是 费用 ， 特 别 是 存储 和 处 理 的 费用 。 当 前 细 
节 级 的 数据 量 是 如 此 之 大 ， 很 少 的 宛 余 也 会 引发 严重 的 
问题 。 处 理 细节 数据 的 费用 同样 是 一 个 主要 问题 。 

第 二 个 ， 也 更 麻烦 的 问题 是 蜂 蛛 网 问题 在 DSS 环 境 中 又 出 现 了 。 由 于 存在 大 量 元 余 的 细 
节 数 据 ， 所 以 自然 会 造成 由 元 余 引 起 的 、 对 数据 的 错误 解释 ， 且 没有 有 效 的 解决 方法 。 在 数 
据 仓 库 中 的 细节 级 出 现 大 量 的 元 余 细 节 数 据 是 一 种 非常 不 理想 的 状态 ， 也 违背 了 最 初 的 目的 。 
如 果 多 个 开发 小 组 并 行 地 设计 和 装载 当前 细节 级 数据 ， 那 么 一 定 要 确保 没有 产生 元 余数 据 。 

为 了 确保 不 产生 宛 余数 据 ， 必 须 创建 一 个 反映 公共 细节 数据 的 数据 模型 。 图 6-32 显 示 了 
多 个 开发 小 组 根据 他 们 的 需求 共同 创建 一 个 公用 数据 模型 的 情形 。 


图 6-31 不 同 的 开发 小 组 共同 建立 
数据 仓库 中 的 当前 细节 级 
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公共 数 据 模型 exces 
| 


开发 小 组 A 开发 小 组 D 
的 特有 数据 的 特有 数据 


开发 小 组 A, B,C, DD 的 公用 数据 


[ [ 


开发 小 组 B 开发 小 组 C 
的 特有 数据 的 特有 数据 





图 6-32 对 于 所 有 开发 小 组 ， 数 据 模型 标识 公用 数据 


除了 当前 正在 进行 开发 的 小 组 外 ， 那 些 当 前 没有 开发 将 来 可 能 介入 的 其 他 开发 小 组 也 可 
以 提出 他 们 的 需求 。( 当然 ， 如 果 开 发 小 组 知道 将 来 的 需求 ， 但 是 又 不 能 清楚 地 描述 它们 ， 屠 
么 这 些 需求 不 会 作为 公用 细节 数据 模型 中 的 考虑 因素 。) 公用 细节 数据 模型 反映 了 数据 仓库 中 
不 同 开发 小 组 对 细节 数据 的 共同 需求 。 

数据 模型 构成 了 数据 仓库 的 设计 基础 。 图 6-33 表 明 在 设计 过 程 中 数据 模型 将 分 割 为 多 张 
表 ， 每 一 个 均 在 物理 上 成 为 数据 仓库 的 一 部 分 。 





公共 数据 模型 《> 


SA 
lien 


销售 历史 数据 部 件 历史 数据 替换 部 件 历史 数据 
客户 历 1] 装运 历 部 件 不 合格  ] 货物 装运 破 
史 数 据 。。 销售 报价 史 数 据 客户 投诉 ”历史 数据 。 舍 物 到 达 损 历 史 数据 
历史 数据 历史 数据 历史 数据 


图 6-33 数据 仓库 在 物理 上 分 布 在 多 个 物理 表 和 数据 库 中 


在 实现 时 ， 数 据 模型 分 割 为 多 张 物理 表 ， 所 以 数据 仓库 的 开发 以 选 代 式 方法 进行 ， 不 需 
要 立即 建立 所 有 表 。 事 实 上 ， 一 次 只 建立 几 张 表 的 优点 是 ， 可 在 需要 时 使 用 最 终 用 户 的 反馈 
信息 来 有 条 不 率 地 对 表 进 行 修改 。 另 外 ， 由 于 公用 数据 模型 分 割 为 多 张 表 ， 因 此 ， 在 以 后 增 
加 新 表 来 弥补 目前 未 知 的 需求 就 不 成 问题 了 。 
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6.5.1 不 同 层 的 不 同 需求 
一 般 来 说 ， 不 同 开发 小 组 的 需求 不 同 ( 见 图 6-34)， 这 些 特殊 的 需求 导 臻 所谓 “局 部 ” 当 
前 细节 级 。 这 些 局 部 数据 肯定 是 数据 仓库 的 一 部 分 ,但 是 它 与 “2 


公用 ”部 分 是 截然 不 同 的 。 
局 部 数据 有 自己 的 数据 模型 ， 通 常 比 公 用 细节 数据 模型 小 得 多 也 简单 得 多 。 


A CC 








局 部 当前 细节 级 数据 


开发 小 组 A 特有 的 数据 


开发 小 组 B 特 有 的 数据 开发 小 组 A.B,C,D 共 同 的 数据 


开发 小 组 D 特 有 的 数据 
开发 小 组 C 特 有 的 数据 
图 6-34 数据 仓库 中 的 当前 细节 级 包含 各 开发 小 组 的 特有 数据 
所 有 的 这 些 细节 数据 肯定 不 存在 元 余 。 图 6-35 清 楚 地 说 明了 这 点 。 


一 SS 
中 局 口 局 口 


客户 调查 
历史 数据 销售 历 史 数 据 部 件 历 历史 数据 ”替换 部 件 
史 数 据 中 数据 历史 数据 


站 WOU 


史 数 据 ”销售 报价 。 史 数 据 客户 投诉 ”历史 数据 货物 到 达 损 历史 数据 
历史 数据 历史 数据 


图 6-35 构成 数据 仓库 细节 级 的 多 张 表 中 非 键 码 数据 的 非 元 余 性 
当然 ， 数 据 非 宛 余 性 仅仅 限于 非 键 码 数 据 。 主 键 数据 肯定 是 元 余数 据 ， 因 为 外 键 用 于 将 
不 同类 型 的 数据 相关 联 。 图 6-36 显 示 了 使 用 外 键 关 联 表 的 情况 。 


在 图 6-36 表 中 的 外 键 与 受 参照 完整 性 所 支配 的 典型 的 外 键 关 系 不 同 。 因 为 数据 仓库 中 收集 
和 存 取 的 是 快照 数据 ， 出 现 的 外 键 关 系 是 以 “人 工 关 系 ” 组 织 的 。 若 想 进 一 步 了 解 人 工 关 系 ， 
请 参考 Wwww.inmoncif.com 网 站 的 技术 论坛 (Tech Topic) 白皮书 〈 见 本 书 最 后 的 参考 文献 ) 。 
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.1 装运 历史 数据 


i 销售 历史 数据 










销售 商 历史 数据 一 键 | | 











客户 历史 数据 


部 件 历 史 数 据 
图 6-36 数据 仓库 环境 中 的 外 键 


是 否 应 采用 同样 的 技术 来 存放 所 有 的 细节 表 (公用 的 和 局 部 的 ) ? 图 6-37 显 示 了 所 有 表 
以 同样 技术 存放 的 情况 。 使 用 同样 的 技术 存放 所 有 细节 表 有 许多 优点 。 一 是 单一 平台 比 多 个 
平台 代价 要 低 得 多 ; 二 是 维护 和 培训 费用 较 低 。 实 际 上 ， 细 节 数 据 采 用 多 个 平台 惟一 的 理由 
是 ， 如 果 使 用 多 个 平台 ， 可 能 不 需要 单一 的 大 平台 ， 而 多 个 小 平台 的 代价 可 能 比 一 个 大 平台 
的 代价 要 低 。 不 管 怎 么 说 ， 事 实 上 ， 许 多 机 构 为 它们 的 所 有 细节 数据 仓库 数据 采用 单一 平台 


策略 ， 并 且 运 行 效果 很 好 。 
开发 小 组 C | 


开发 小 组 B ”特有 的 数据 “开发 小 组 D 


1 特有 的 数据 特有 的 数据 人 
开发 小 组 A 开发 小 组 A, B， 
re pe D 共 同 的 数据 


公用 的 技术 平台 
图 6-37 数据 仓库 细节 级 不 同类 型 的 数据 都 在 同一 个 技术 平台 上 
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6.5.2 其 他 类 型 的 细节 数据 


另 一 种 策略 是 对 不 同类 型 的 细节 级 数据 使 用 不 同 的 平台 。 图 6-38 显 示 了 采用 这 种 配置 的 
一 个 实例 。 一 些 局 部 数据 使 用 一 种 平台 ， 公 用 数据 使 用 另 一 种 平台 ， 而 其 他 的 局 部 数据 又 采 
用 其 他 的 一 种 技术 平台 。 这 种 选择 具有 一 定 的 合理 性 ， 能 很 好 地 满足 企业 内 不 同 的 策略 需求 。 
采用 这 种 选择 ， 不 同 的 开发 小 组 至 少 能 对 自己 特有 的 需求 共有 一 定 程度 的 控制 能 力 。 不 幸 的 
是 ， 这 种 选择 有 几 个 主要 缺陷 : 第 一 ， 必 须 购买 和 支持 多 个 技术 平台 ; 第 二 ， 最 终 用 户 必 须 
接受 多 种 技术 培训 ; 最 后 ， 各 种 技术 可 能 很 难 融合 在 一 起 。 图 6-39 表 明了 这 种 困境 。 


开发 小 组 D 
特有 的 数据 
开发 小 组 B 开发 小 组 C 
特有 的 数据 特有 的 数据 


开发 小 组 A 开发 小 组 A,B， 
特有 的 数据 C,D 共 同 的 数据 


| 
也 


平台 A 
图 6-38 数据 仓库 的 细节 级 数据 的 不 同 部 分 分 散在 不 同 的 技术 平台 上 


如 果 数 据 仓 库 中 细节 的 不 同 级 采用 多 种 技术 ， 那 么 操作 时 就 必须 跨越 不 同 的 技术 平台 。 
目前 已 经 有 一 些 为 跨越 不 同 的 技术 平台 访问 数据 而 设计 的 软件 。 但 如 图 6-40 所 示 ， 仍 然 存在 
一 些 问 题 。 

问题 之 一 是 数据 传输 。 如 果 多 接口 技术 用 于 少量 的 数据 传输 ， 效 果 还 可 以 。 但是， 如 果 多 
接口 技术 用 于 大 量 的 数据 传输 ， 那 么 ,该 软件 将 会 成 为 性 能 的 瓶颈 。 不 幸 的 是 ， 在 DSS 环境 中 ， 
对 任 一 个 请 求 都 不 可 能 预先 知道 它 将 访问 多 少数 据 。 某 些 请 求 可 能 访问 非常 少 的 数据 ， 而 另 
一 些 可 能 访问 大 量 数据 。 当 细节 数据 位 于 多 种 平台 上 时 ， 将 会 出 现 资源 的 利用 和 管理 的 问题 。 

另 一 个 相关 的 问题 是 “ 剩 留 ”细节 数据 ， 即 当 细节 数据 从 数据 仓库 的 一 个 地 方 传送 到 另 
一 个 地 方 后 驻 留 在 那个 地 方 。 这 种 随意 的 细节 数据 搬迁 将 会 导致 细节 级 上 出 现 元 余数 据 ， 在 
一 定 程度 上 是 不 可 接受 的 。 


6.5.3 元 数据 


在 任何 情况 下 ， 无 论 采 用 多 种 技术 还 是 单一 技术 管理 细节 数据 ， 元 数据 的 作用 都 不 可 忽 
略 。 图 6-41 表 明 元 数据 需要 位 于 数据 仓库 的 细节 数据 的 顶层 。 
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开发 小 组 B 开发 小 组 D 

特有 的 数据 特有 的 数据 
开发 小 组 A 开发 小 组 C 开发 小 组 A, B， 
特有 的 数据 特有 的 数据 C,D 共 同 的 数据 









| 
一 一 一 数据 传输 一 一 一 一 | 


图 6-39 数据 传输 和 多 表 查 询 出 现 特殊 技术 问题 


平台 B 
平台 C 
成 批 传输 数据 





= 二、 国 分 析 完 成 后 的 利 余数 据 


i 


图 6-40 不 同 平台 间 的 接口 问题 
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元 数据 





史 数 史 数 据 
史 数 据 销售 商 历 ”客户 投诉 
史 数 据 历史 数据 


销售 报价 
历史 数据 


图 6-41 元 数据 位 于 数据 仓库 中 实际 数据 内 容 的 顶层 


6.6 公共 细节 数据 采用 多 种 平台 


另 一 种 可 能 性 也 是 值得 考虑 的 ， 即 公共 细节 数据 采用 多 种 技术 平台 。 图 6-42 概 括 了 这 种 
可 能 性 。 


多 个 开发 小 组 间 的 公共 数据 


当前 细节 数据 


平台 A 平台 B 平台 C 
图 6-42 公共 的 细节 数据 采用 多 种 开发 平台 一 一 所 有 场合 的 真实 危险 信号 


虽然 这 种 可 能 性 是 一 种 选择 方案 ,但 决 不 是 一 种 很 好 的 解决 方案 。 管 理 当 前 公共 的 细节 
数据 已 经 很 困难 了 。 细 节 级 的 大 批量 数据 已 经 带 来 了 许多 特殊 的 管理 问题 。 跨 越 多 种 技术 平 
台 的 复杂 性 只 能 增加 管理 的 难度 。 除 非 有 特殊 的 减负 策略 ， 一 般 不 推荐 使 用 这 种 方案 。 

采用 多 种 技术 平台 管理 公共 的 细节 数据 的 惟一 好 处 是 ， 这 种 选择 方案 能 够 立刻 满足 企业 
在 政策 和 组 织 上 的 不 同意 见 。 


6.7 小 结 


大 部 分 环境 中 采用 一 个 集中 式 数据 仓库 。 但 是 在 某 些 特定 场合 ， 可 以 建立 分 布 式 数据 仓 
库 。 分 布 式 数据 仓库 的 三 种 类 型 如 下 : 

“拥有 局 部 业务 和 全 局 业务 的 全 球 性 企业 服务 的 数据 仓库 。 

* 数据 分 布 在 多 个 物理 的 存储 空间 上 的 技术 分 布 式 数据 仓库 。 

* 拥有 组 织 或 管理 上 独立 的 企业 中 各 独立 部 门 无 关联 的 数据 仓库 。 

不 同类 型 的 分 布 式 数据 仓库 都 有 各 自考 虑 的 因素 。 
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一 个 全 局 数据 仓库 最 难 的 是 在 分 支 机 构 上 所 做 的 上 映射。 映射 必须 解决 转换 、 集 成 和 不 同 
的 业务 实践 等 问题 。 映 射 是 迭代 式 完成 的 。 在 许多 情况 下 ， 全 局 性 数据 仓库 是 相当 简单 的 ， 
因为 全 局 数据 仓库 中 只 包含 参与 业务 集成 的 企业 数据 。 许 多 局 部 数据 永远 不 会 传送 到 全 局 数 
据 仓 库 ， 或 者 参与 全 局 数据 仓库 的 装载 过 程 。 全 局 数据 的 存 取 依据 分 析 员 业务 的 需求 。 分 析 
员 只 有 着 眼 于 局 部 业务 操作 ， 才 有 理由 存 取 全 局 数据 仓库 中 的 数据 。 

局 部 数据 仓库 经 常 建造 在 不 同 的 技术 平台 上 。 另 外 ， 全 局 数据 仓库 可 能 采用 的 技术 和 任 
何 局 部 数据 仓库 所 采用 的 不 同 。 对 于 不 同 的 局 部 数据 仓库 在 全 局 数据 仓库 的 交集 来 说 ， 在 全 
局 数据 仓库 的 数据 模型 如 胶水 一 样 ， 把 不 同 局 部 数据 仓库 的 数据 汇合 到 一 起 。 局 部 数据 仓库 
可 能 包含 有 仅仅 服务 于 本 地 业务 的 独 有 数据 。 全 局 数据 仓库 也 可 能 是 分 布 式 的。 分布 式 全 局 
数据 仓库 的 结构 和 内 容 是 集中 确定 的 ， 而 进入 全 局 数据 仓库 的 数据 映射 是 局 部 确定 的 。 

分 布 式 数据 仓库 环境 的 协调 和 管理 远 比 单个 数据 仓库 要 复杂 得 多 。 把 数据 从 局 部 环境 传 
送 到 全 局 环境 会 带 来 几 个 相关 的 问题 : 

“采用 什么 样 的 网 络 技术 ? 

“数据 的 传输 合法 吗 ? 

* 在 全 局 站 点 上 有 足够 大 的 处 理 窗口 吗 ? 

* 必须 做 什么 样 的 技术 转换 ? 





第 7 章 主管 信息 系统 和 数据 仓库 


主管 信息 系统 (EIS) 是 数据 仓库 之 前 的 一 个 概念 。EIS 的 意义 在 于 说 明 计算 机 是 对 企业 
中 每 一 个 人 都 是 有 用 的 ， 而 不 仅仅 对 办 事 员 处 理 日 常事 务 有 用 。EIS 向 主管 们 提供 了 一 系列 有 
吸引 力 的 用 户 界面 ， 因 为 华丽 的 界面 可 以 明 引 主管 们 的 注意 。HEIS 的 创建 者 认为 计算 领域 应 该 
对 主管 开放 ， 但 他 们 还 没有 把 数据 提供 给 管理 人 员 所 需 的 基本 结构 的 概念 。EIS 的 基本 思想 是 
提供 信息 ， 但 不 需要 真正 理解 创建 这 些 信息 的 基本 结构 。 

当 数据 仓库 首次 出 现时 ，EIS 界 对 它 完全 持 一 种 嘲讽 的 态度 ， 认 为 数据 仓库 是 低级 而 复杂 
的 。 相 对 于 数据 仓库 当中 操作 和 管理 的 复杂 性 而 言 ，EIS 是 一 种 高 级 的 、 优 雅 的 方法 。EIS 研 
究 者 们 认为 管理 人 员 不 值得 担心 像 数据 源 、 数 据 质 量 、 数 据 流 通 等 等 这 样 一 些 问 题 。 因 此 ， 
EIS 的 失败 在 于 缺乏 这 样 的 基础 结构 。( 有 人 认为 数据 仓库 出 现 后 ，EIS 转 义 为 商业 智能 ) 如 果 
给 出 的 数据 是 不 可 信 的 、 不 精确 的 、 或 者 完全 不 能 使 用 ， 数 据 无 论 如 何 优雅 地 展现 给 管理 人 
员 ， 也 是 没有 意义 的 。 

我 第 一 次 写 这 一 章 的 时 候 ，EIS 正 走向 消亡 。 像 最 初 所 写 一 样 ， 本 章 的 意图 在 于 呼吁 EIS 
研究 者 们 重视 基础 结构 。 但 EIS 研 究 者 们 和 他 们 的 风险 资本 赞助 者 却 认为 在 EIS 和 数据 仓库 之 
间 没 有 关系 。 当 谈 到 必须 有 基层 结构 来 支持 EIS 研 究 者 们 的 宏伟 计划 时 ，EIS 研 究 者 和 风险 资 
本 赞助 者 们 却 不 接受 这 一 点 。 

现在 最 早出 现 的 为 人 们 所 熟知 的 EIS 已 几乎 完全 消失 。 但 由 EIS 提 出 的 目标 却 仍 有 其 价值 
和 现实 意义 。 因 此 ， 如 今 EIS 又 重新 以 许多 新 的 形式 出 现 一 一 例如 OLAP 处 理 和 像 客户 关系 管 
理 (CRM) 的 DSS 应 用 。 这 些 EIS 的 现代 形式 是 和 数据 仓库 密切 相连 的 ， 在 这 一 点 上 ， 它 们 并 
不 同 于 最 早期 的 EIS 形 式 。 


7.1 EIS 概 述 


EIS 是 计算 的 最 有 效 形式 之 一 。 通 过 EIS ， 高 级 管理 分 析 人 员 可 以 精确 指出 问题 并 发 现 对 
于 管理 至 关 重 要 的 趋势 。 在 某 种 意义 上 ，EIS 是 计算 机 技术 的 最 复杂 的 一 个 应 用 。 

EIS 处 理 是 出 于 帮助 主管 制定 决策 而 设计 的 。 从 某 种 意义 上 说 ，EIS 成 为 主管 观察 公司 运 
营 的 窗口 。EIS 处 理 总 揽 全 局 并 且 弄 清 与 商业 运作 相关 的 方面 。EIS 最 典型 的 用 途 是 : 

“趋势 分 析 和 发 现 。 

“关键 比例 指标 度量 和 跟踪 。 

“向 下 钼 取 分 析 。 

* 问题 监控 。 

“竞争 分 析 。 

“ 关键 性 能 指标 监控 。 


7.2 一 个 简单 例子 
在 主管 看 来 ，EIS 分 析 是 怎样 的 呢 ? 作为 一 个 例子 ， 见 图 7-1， 它 显示 了 一 家 保险 公司 提 
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供 保险 的 信息 ， 按 季度 次 序 跟踪 新 的 人 寿 、 健 康 、 意 外 事故 保险 的 销售 情况 。 这 张 简单 的 图 
表 是 主管 调查 业务 情况 的 一 个 很 好 的 出 发 点 。 如 图 7-2 中 趋势 分 析 所 示 ， 主 管 在 了 解 了 全 面 的 
信息 之 后 ， 就 能 开始 做 更 深入 的 调查 。 


主管 们 和 EIS 


全 部 保险 单 。 300 





第 1 季度 第 2 季度 第 3 季度 第 4 季度 第 1 季度 第 2 季度 
人 填 有 保全 
让 -太保 全 





图 7-1 EIS 处 理 的 典型 图 表 


如 图 7-2， 主 管 已 经 把 新 人 寿 保险 销售 、 新 健康 保险 销售 和 新 意外 事故 保险 销售 分 隔 开 。 
通过 观察 新 的 意外 事故 保险 销售 数据 ， 主 管 发 现 一 个 趋势 : 每 个 季度 的 新 意外 保险 销售 一 直 
在 下 降 。 发 现 这 种 趋势 后 ， 主 管 就 能 进一步 研究 为 什么 销售 额 会 一 直下 降 。 


EIS 中 主管 们 看 到 什么 





第 1 季度 第 2 季度 第 3 季度 第 4 季度 第 1 季度 第 2 季度 
ee 半 人 事故 保险 


图 7-2 趋势 一 -新 意外 事故 保险 销售 下 滑 


EIS 分 析 提 醒 主管 趋势 是 怎样 的 ， 然 后 由 他 (她 ) 发 现 造成 这 种 趋势 的 根本 原因 。 

主管 对 积极 的 和 消极 的 趋势 都 感 兴趣 。 如 果 生 意 正在 变 糟 ， 为 什么 会 变 糟 ?以 什么 样 的 
速度 变 粳 ? 要 补救 这 种 情况 ， 能 做 些 什么 ? 或 者 ， 如 果 生 意 正在 上 扬 ， 那 么 为 什么 会 上 扬 ? 
为 促进 和 加 强 成 功 因 素 ， 能 做 些 什么 ”这 些 成 功 因素 能 用 到 生意 上 的 其 他 领域 吗 ? 


趋势 分 析 并 不 是 EIS 所 能 作 的 唯一 的 分 析 类 型 。 另 一 种 有 用 的 分 析 类 型 是 比较 分 析 。 图 7-3 
显示 了 一 种 EIS 分 析 中 可 能 用 到 的 比较 分 析 。 
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比较 


全 部 保险 单 ”300 


第 1 季度 ”第 2 季度 第 3 季度 第 4 季度 第 1 季度 第 2 季度 
WE 站 人 天 保险 


图 7-3 为 什么 在 过 去 的 三 个 季度 里 新 健康 保险 的 销售 额 会 存在 如 此 大 的 差异 


观察 图 7-3 中 第 4 季度 、 第 1 季度 和 第 2 季度 的 数据 ， 会 提出 问题 : 为 什么 在 过 去 的 三 个 季 
度 里 新 健康 保险 的 销售 额 会 存在 如 此 大 的 差异 ? EIS 处 理 提 醒 管 理 者 注意 这 些 差异 。 然 后 EIS 
分 析 员 去 确定 其 根本 原因 。 

对 一 个 大 型 的 多 种 经 营 的 企业 的 管理 者 来 说 ，EIS 人 允许 以 很 多 方式 观察 企业 行为 。 跟 踪 大 
量 行为 比 只 跟踪 少量 行为 要 困难 得 多 。 从 这 个 意义 上 说 ，EIS 可 以 用 来 拓展 管理 者 的 控制 范围。 

但 是 趋势 分 析 和 比较 分 析 还 不 是 管理 者 有 效 使 用 EIS 的 仅 有 方法 。 另 一 种 方法 是 “切片 和 
分 块 "。 通 过 这 种 方法 ， 分 析 员 取得 基本 信息 ， 用 一 种 方式 归 类 、 分 析 它 。 然 后 用 另 一 种 方式 
将 其 分 组 并 再 分 析 这 些 数据 。 切 片 和 分 块 允许 管理 者 对 正在 发 生 的 行为 以 不 同 角度 进行 观察 。 


7.3 向 下 钻 取 分 析 


为 了 切片 和 分 块 ， 有 必要 向 下 外 取 数 据 。 向 下 钻 取 数 据 是 指 从 一 个 汇总 数据 开始 ， 将 该 
汇总 数据 分 解 成 一 组 更 细致 的 汇总 数据 。 通 过 获取 汇总 数据 下 的 细节 数据 ， 管 理 者 能 够 知道 
究竟 正在 发 生 什么 事情 ， 特 别 是 汇总 数据 在 哪里 出 现 异 常 。 图 7-4 显 示 了 一 个 向 下 钻 取 分 析 的 
简单 实例 。 


一 一 > 是 西部 地 区 纽约 ena 
一 人 
站 马萨诸塞 Albany 

一 是 东南 部 地 区 

1 一 一 康涅狄格 Schenectady 
一 一 是 东北 部 地 区 宾夕法尼亚 Long lsland 
5 Iithaca 

从 让 White Plains 


Poughkeepsie 
缅 因 ， 罗 得 岛 ， 佛 蒙特 看 其 他 


第 2 季度 
图 7-4 为 使 EIS 显 示 的 数据 有 意义 ， 汇 总 数据 需要 支持 向 下 钻 取 处 理 
在 图 7-4 中 ， 管 理 者 已 经 看 过 了 第 2 季度 的 汇总 结果 并 想 对 它 做 进一步 探查 。 于 是 管理 
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者 观察 构成 汇总 数据 的 各 个 地 区 。 要 进行 分 析 的 数据 是 西部 地 区 、 东 南部 地 区 、 东 北部 地 
区 、 中 部 地 区 的 数据 。 在 观察 各 个 地 区 数据 的 过 程 中 ， 管 理 者 决定 仔细 查看 一 下 东北 部 地 
区 的 数据 ， 

东北 部 地 区 的 数据 是 纽约 、 马 萨 诸 塞 、 上 康涅狄格、 宾夕法尼亚 、 新 泽 西 、 弗 吉 尼 亚 、 缅 
因 、 罗 得 岛 和 弗 蒙 特 的 数据 的 综合 。 在 这 些 州 中 ， 管 理 者 决定 再 仔细 观察 纽约 州 的 数据 。 这 
就 需要 再 查询 该 州 有 保险 销路 的 各 个 城市 的 数据 。 

-- 般 情况 下 ， 管 理 者 选择 一 条 从 汇总 数据 到 细节 数据 的 路 径 ， 然 后 逐次 进入 到 下 一 层 进 
行 观察 。 在 这 种 模式 下 ， 能 够 确定 哪里 存在 问题 。 一 旦 发 现 异 常 ， 管 理 者 就 知道 到 何 处 去 查 
看 更 详尽 的 数据 。 

EIS 另 一 个 重要 的 功能 是 跟踪 关键 性 能 指标 的 能 力 。 尽 管 每 个 公司 都 有 自己 的 一 组 指标 ， 
但 是 典型 的 关键 性 能 指标 可 能 如 下 所 示 : 

。 手 头 的 现金 。 

。 客 户 渠道 。 

。 销 售 周 期 的 长 度 。 

。 储存 时 间 。 

。 新 产品 渠道 。 

。 竞 争 的 产品 。 

每 个 公司 通过 几 个 关键 性 能 指标 〈 使 用 单一 的 度量 ) 来 反映 公司 某 些 方面 的 重要 情况 。 
对 他 们 来 说 ， 关 键 性 能 指标 表明 公司 的 运转 情况 。 从 长 远 来 看 ， 关 键 性 能 指标 甚至 能 够 表明 
公司 的 发 展 趋势 。 

如 果 手 头 的 现金 是 X 美 元 ， 说 明了 公司 运作 的 一 些 状况 。 如 果 数 据 表明 ， 两 个 月 前 手头 的 
现金 为 Z 美 元 ， 一 个 月 前 手头 的 现金 为 Y 美 元 ， 而 这 个 月 为 X 美 元 ， 那 么 可 以 说 明 的 状况 更 多 
更 深入 。 长 期 观察 关键 性 能 指标 是 主管 要 做 的 极其 重要 的 事情 之 一 ，EIS 是 做 这 项 工作 的 绝 佳 
工具 。 

有 很 多 成 熟 的 软件 能 用 于 EIS， 把 分 析 结 果 呈 现 给 管理 者 。EIS 的 困难 之 处 不 在 于 图 形 表 
示 ， 而 在 于 显示 图 形 过 程 中 准确 地 、 完 全 地 、 集 成 地 查找 和 准备 数据 的 过 程 ， 如 图 7-5 所 示 。 

只 要 数据 存在 ，EIS 完 全 能 够 以 图 形 的 形式 支持 向 下 钻 取 处 理 。 如 果 要 分 析 的 数据 不 存在 ， 
向 下 钻 取 处 理 就 变 得 乏味 而 笨拙 。 这 样 的 向 下 钻 取 就 不 是 主管 需要 的 了 。 





RIS 软件 和 向 下 钻 取 处 理 


图 7-5 只 要 能 取得 需要 的 数据 并 且 数 据 构 造 得 合理 ，EIS 软 件 支 持 向 下 钻 取 处 理 
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7.4 支持 向 下 钼 取 处 理 

生成 用 于 向 下 销 取 分 析 的 基本 数据 是 成 功 执行 向 下 钻 取 处 理 的 主要 障碍 ， 如 图 7-6 所 示 。 
的 确 ， 有 一 些 研究 表明 ， 每 花费 1 美元 用 于 开发 EIS 软 件 和 硬件 ， 就 要 为 向 下 钻 取 数据 准备 而 
花费 9 美元 。 





购买 及 安装 EIS 
软件 既 快 又 容易 


图 7-6 困难 在 于 生成 用 于 EIS 处 理 的 基本 数据 


这 个 问题 之 所 以 严重 ， 是 因为 主管 时 而 对 这 件 事 感 兴趣 ， 时 而 对 那 件 事 感 兴趣 ， 总 是 在 
改 主意 。 图 7-7 显 未 了 使 主管 感 兴趣 的 事情 总 是 不 时 变化 的 特性 。 第 1 天 ， 主 管 想 了 解 公司 的 
财务 状况 ，EIS 分 析 员 花费 很 大 精力 找 出 了 支持 这 个 EIS 需 求 的 基本 数据 。 第 2 天 ， 意 外 地 出 现 
了 一 个 生产 问题 ， 管 理 者 把 注意 力 转向 这 个 问题 ，EIS 分 析 员 赶 紧 尽 力 收集 主管 需要 的 数据 。 
第 3 天 ，EIS 分 析 员 又 将 注意 力 转向 发 货 中 出 现 的 问题 。 对 主管 来 说 ， 每 天 都 有 一 个 新 的 关注 
焦点 。EIS 分 析 者 不 可 能 很 容易 地 跟 上 主管 变化 的 节奏 。 

不 要 责怪 管理 者 经 常 改变 主意 。 因 为 生意 发 生变 化 时 管理 者 就 需要 改变 主意 ， 事 实 上 ， 
生意 状况 每 天 都 在 发 生变 化 。 

每 当 新 问题 或 新 机 遇 出 现时 ， 管 理 者 的 关注 焦点 就 会 改变 。 没 有 模式 能 预测 管理 者 关注 
的 下 一 个 焦点 是 什么 。 结 果 是 ，EIS 分 析 员 总 是 处 在 鞭 梢 的 位 置 一 一 这 是 错误 的 ! EIS 分析 员 
总 是 处 于 一 种 被 动 响应 的 状态 。 并 且 ， 一 旦 为 EIS 分 析 准 备 基本 数据 的 工作 分 配 下 来 ，E1S 分 
析 员 就 会 疲于奔命 。 

问题 在 于 EIS 分 析 员 没有 一 个 能 够 便于 操作 的 基本 数据 集 。 对 EIS 分 析 员 来 说 ， 管 理 者 每 
一 个 新 的 关注 焦点 都 要 求 一 个 完全 不 同 的 数据 集 。 没 有 支持 EIS 环 境 的 数据 基础 。 


7.5 ”作为 EIS 基 础 的 数据 仓库 


数据 仓库 在 EIS 环 境 中 的 操作 效率 是 最 高 的 。 数 据 仓库 是 根据 EIS 分 析 员 的 需要 而 定制 的 。 
一 旦 建立 了 数据 仓库 ， EIS 的 工作 比 起 EIS 分 析 员 没有 能 够 操作 的 数据 基础 时 要 容易 得 多 。 图 
7-8 显 示 了 数据 仓库 怎样 对 EIS 数 据 的 需求 提供 支持 。 

有 了 数据 仓库 ，EIS 分 析 员 不 必 担 心 : 

。 从 现存 系统 中 生成 特定 的 抽取 程序 。 

* 处 理 非 集成 数据 。 
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第 1 天 管理 者 
管理 者 对 财务 状况 感 兴趣 
gx OO 区 
出 现 一 个 生产 问题 






突然 又 出 现 了 
一 个 发 货 问 题 


图 7-7 主管 兴趣 不 断 地 发 生变 化 


。 编译 和 链接 细节 和 汇总 数据 以 及 两 者 之 间 的 链接 关系 。 
。 寻找 合适 的 数据 时 基 (寻找 历史 数据 )。 

“管理 者 是 否 改变 下 一 步 要 观察 的 对 象 。 

另外 ，EIS 分 析 员 有 大 量 的 汇总 数据 可 用 。 





图 7-8 数据 仓库 为 管理 者 对 EIS 数 据 的 需要 提供 支持 


757 


158 条 7 间 





简 而 言 之 ， 数 据 仓库 提供 了 EIS 分 析 员 有 效 支持 EIS 处 理 所 必需 的 数据 基础 。 通 过 使 用 数据 仓 
库 中 丰富 的 数据 资源 ，EIS 分 析 员 能 以 主动 的 姿态 去 满足 管理 者 的 需求 一 而 不 是 无 休止 地 被 动 
响应 。 正 是 由 于 有 了 数据 仓库 ，EIS 分 析 员 的 工作 从 数据 工程 师 的 工作 转变 为 真正 的 分 析 工作 。 

数据 仓库 能 够 满足 EIS 领 域 需要 的 另外 一 个 非常 重要 的 原因 是 数据 仓库 是 在 低 粒度 级 上 进 
行 操作 。 数 据 仓库 由 (缺乏 恰当 的 词 ) 原子 数据 组 成 。 原 子 数据 能 够 以 不 同 的 方式 来 设计 。 
当 管 理 者 有 公司 以 前 没有 遇见 过 的 信息 需求 时 ， 由 于 数据 仓库 中 有 细节 数据 ， 就 会 以 某 种 能 
满足 管理 者 需要 的 方式 组 织 需要 的 信息 。 因 为 在 数据 仓库 中 存储 的 是 粒状 的 原子 数据 ， 所 以 
分 析 是 灵活 的 而 又 反应 快速 的 。 数 据 仓库 中 的 细节 数据 用 于 将 来 未 知 的 信息 需求 。 这 就 是 为 
什么 数据 仓库 能 够 将 机 构 从 被 动 响应 转换 为 主动 响应 。 


7.6 到 哪里 取 数 据 


EIS 分 析 员 可 以 在 体系 结构 中 多 个 不 同 的 位 置 获取 数据 。 如 图 7-9 所 示 ，EIS 分 析 员 可 能 到 
个 体 处 理 层 、 部 门 (数据 集 市 ) 处 理 层 、 轻 度 汇 总 处 理 层 或 档案 (静态 ) 数据 层 中 去 取 数 据 。 
并 且 ，EIS 分 析 员 为 满足 管理 者 的 需要 获取 数据 的 过 程 ， 总 是 遵循 一 个 标准 的 顺序 或 层次 (如 
图 7-9)。 


操作 型 环境 数据 仓库 部 门 (数据 集 市 ) 个 体 





图 7-9 EIS 到 哪里 取 数据 


如 图 7-10 所 示 ， 采 用 这 种 顺序 有 很 充分 的 理由 。 在 从 个 体 处 理 层 转向 档案 或 静态 处 理 层 
的 过 程 中 ,分 析 员 事实 上 进行 了 向 下 钻 取 分 析 。 体 系 结构 设计 环境 中 汇总 程度 最 高 的 数据 出 
现在 个 体 层 。 个 体 层 的 汇总 支持 层 是 部 门 (数据 集 市 ) 层 ， 支 持 部 门 (数据 集 市 ) 层 汇总 的 
数据 来 自 于 轻 度 汇总 层 。 最 后 ， 轻 度 汇总 层 数 据 由 档案 静态 层 数据 支持 。 以 上 陈述 的 汇总 顺 
序 正 是 支持 EIS 向 下 钻 取 分 析 所 必需 的 。 

按照 惯例 ， 数 据 仓库 有 一 条 用 于 向 下 钻 取 分 析 的 路 径 。 在 数据 仓库 的 不 同 层次 及 整个 的 
汇总 过 程 中 ， 数 据 通过 一 个 主键 结构 建立 关联 。 主 键 结构 本 身 或 者 主键 结构 衍生 出 来 的 结构 
将 各 层 数 据 联 系 起 来 ， 以 便 能 够 方便 地 进行 向 下 钻 取 分 析 。 


主管 信息 系 绕 负数 据 合 订 759 


重复 的 汇总 数据 


| 






图 7-10 向 下 钻 取 处 理 是 从 个 体 处 理 层 到 真实 档案 数据 
数据 仓库 对 EIS 支 持 的 方式 如 图 7-11 所 示 。 


El (©) 


NSNRRSS 


外 耻 
肖 才 


@ 


图 7-11 数据 仓库 如 何 支 持 EIS 


EIS 功 能 使 用 如 下 : 

“用 数据 仓库 提供 汇总 数据 。 

“用 数据 仓库 结构 支持 向 下 钻 取 处 理 。 

“用 数据 仓库 的 元 数据 为 DSS 分 析 员 规划 建造 EIS 系 统 。 

“用 数据 仓库 的 历史 内 容 支 持 管理 人 员 所 需要 的 趋势 分 析 。 
“ 用 数据 仓库 中 的 集成 数据 观察 整个 公司 的 运行 概况 。 


7.7 事件 映射 
EIS 处 理 使 用 数据 仓库 的 一 个 有 用 的 技术 是 事件 映射 。 描 述 事件 映射 最 简单 的 方式 是 从 一 
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条 简单 趋势 曲线 开始 。 

图 7-12 显 示 公司 的 收入 与 预期 的 一 样 ， 每 月 都 在 变化 。 根 据 从 数据 仓库 取得 的 数据 ， 已 
经 估计 出 了 趋势 。 收 入 趋势 本 身 是 令 人 感 兴趣 的 ， 但 它 只 是 对 公司 的 运营 情况 的 一 个 肤浅 看 
法 。 要 加 强 这 种 看 法 ， 要 把 事件 映射 到 趋势 曲线 上 。 





图 7-12 公司 收入 按 月 变化 


如 图 7-13， 三 个 重要 事件 映射 到 了 公司 的 收入 趋势 曲线 上 ， 它 们 是 “新 潮 彩 电 ” 生 产 线 
的 引入 ， 对 销售 人 员 激 励 机 制 的 采用 和 竞争 机 制 的 引入 。 现 在 可 以 从 另 一 个 角度 观察 公司 收 
益 和 重要 事件 之 间 的 关系 。 通 过 观察 图 7-13 中 的 图 表 ， 可 以 得 出 结论 : 新 生产 线 和 新 激励 机 
制 的 引入 使 公司 收入 猛 涨 ， 而 竞争 机 制 在 年 末 才 开始 发 挥 作 用 。 






三 月 人 四 月 五 月 六 月 七 月 八 月 九 月 1 月 


引入 “新 潮 彩 竞争 促进 下 一 年 
电 ” 生 产 线 ee 收入 的 提高 
在 销售 人 员 中 
引入 激励 机 制 


图 7-13 趋势 曲线 上 的 事件 映射 


对 某 些 类 型 的 事件 ， 事 件 映射 是 度量 事件 结果 的 唯一 方法 。 一 些 事件 和 行为 不 能 直接 度 
量 ， 而 不 得 不 用 一 种 相关 方式 。 对 于 一 些 类 型 的 事件 ， 成 本 合理 性 和 实际 成 本 收益 用 任何 别 
的 方法 是 不 能 度量 的 。 

但 是 ， 观 察 相关 信息 可 能 会 得 出 错误 的 结论 。 而 观察 与 该 事件 有 关 的 多 组 趋势 图 常常 是 
有 益 的 。 例 如 ， 图 7-14 表 明 ， 公 司 收益 与 消费 者 置信 指标 结合 可 以 产生 具有 多 个 视角 的 图 表 。 
观察 图 7-14， 主 管 能 确定 所 映射 的 事件 是 否 对 销售 产生 了 影响 。 

数据 仓库 可 以 既 存 储 产 生 于 内 部 的 收入 数据 ， 又 存储 产生 于 外 部 的 消费 者 置信 数据 。 


7.8 细节 数据 和 EIS 
需要 多 少 细节 数据 才能 运行 EIS/DSS 环 境 呢 ?一 种 学 院 派 的 说 法 是 需要 尽 可 能 多 的 细节 数 
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据 。 通 过 存储 尽 可 能 多 的 数据 ， 能 做 任何 当前 需要 的 分 析 工作 。 既 然 DSS 的 特性 是 探究 未 知 
的 东西 ， 谁 知道 你 需要 什么 样 的 细节 数据 呢 ? 为 安全 起 见 ， 你 最 好 把 当前 能 得 到 的 所 有 细节 
数据 都 保存 起 来 。 而 且 ， 你 能 得 到 的 历史 细节 数据 越 多 越 好 ， 因 为 你 永远 不 会 知道 为 完成 给 
定 的 DSS 分 析 ， 需 要 在 历史 数据 中 回溯 多 远 。 


消费 者 消费 指标 一 一 由 统计 局 每 月 公布 





一 肯 - 人 一 月 -宇明 


四 月“ 二 月 次 月 “二 为 汪 代 月 本 明月 


引入 “新 潮 彩 
电 ”生产 线 





竞争 促进 了 下 一 
年 收入 的 提高 

在 销售 人 员 中 

引入 激励 机 制 


图 7-14 将 一 个 趋势 分 析 置 于 现存 的 趋势 分 析 之 上 ， 就 可 以 得 到 另 一 个 分 析 视 角 


关于 为 DSS 处 理 存储 大 量 细节 数据 的 讨论 ， 其 核心 逻辑 很 难 评论 。 从 理论 上 说 ， 为 DSS 或 
EIS 处 理 准备 尽 可 能 多 的 数据 肯定 是 正确 的 。 但 是 在 某 些 重要 方面 ， 关 于 EIS 中 细节 数据 的 讨 
论 如 同 Zeno 悖 论 。 在 Zeno 悖 论 中 ， 逻 辑 不 可 避免 地 “证 明 ”， 只 要 乌龟 比 兔子 先 出 发 ， 免 子 就 
永远 追 不 上 乌龟 。 当 然 ， 实 际 情况 和 我 们 的 观察 告诉 我 们 并 非 如 此 ， 这 警告 我 们 仅仅 根据 逻 
辑 得 出 的 结论 是 不 可 靠 的 。 

那么 ， 在 建造 DSS/EIS 环 境 时 ,保存 所 有 细节 数据 为 什么 错误 呢 ? 有 几 个 原因 。 首 先 ， 存 
储 和 处 理 的 开销 可 能 是 个 天 价 。 仅 仅 存 储 和 处 理 大 量 细节 数据 的 开销 就 不 允许 建立 一 个 所 请 
有 效 的 EIS/DSS 环 境 .说 它 不 切实 际 的 第 二 个 原因 是 大 量 数 据 是 有 效 使 用 分 析 技 术 的 一 个 障碍 。 
有 大 量 的 数据 需要 处 理 ， 重 要 的 趋势 和 模式 可 能 就 隐藏 在 漫 无 边际 的 细节 数据 记录 的 掩饰 之 
下 了 。 第 三 个 原因 是 前 面 所 做 的 细节 分 析 不 可 重用 。 只 要 存在 大 量 的 细节 数据 ，DSS 分 析 员 
就 会 被 鼓舞 从 头 做 新 的 分 析 。 这 是 一 种 无 益 的 浪费 ， 甚 至 具有 潜在 的 危害 。 如 果 新 老 分 析 的 
方式 不 完全 相同 ， 非 常 相似 的 分 析 还 可 能 得 到 矛盾 的 结论 。 

做 EIS 分 析 不 仅 要 存储 细节 数据 ， 也 要 存储 汇总 数据 。 DSS 和 EIS 分 析 对 汇总 数据 的 使 用 
与 对 细节 数据 的 使 用 一 样 多 。 汇 总 数据 比 细节 数据 的 数据 量 小 得 多 ， 并 且 管 理 起 来 容易 得 多 。 
从 访问 和 表示 的 角度 来 看 ， 汇 总 数据 对 管理 来 说 是 理想 的 。 汇 总 数据 是 未 来 分 析 的 基础 ， 并 
且 由 于 它 的 存在 ， 不 必 进 行 重复 分 析 。 仅 就 这 些 原 因 ， 就 应 将 汇总 数据 作为 DSS/EIS 环 境 的 主 
要 部 分 。 


7.9 在 EIS 中 只 保存 汇总 数据 
但 是 ， 只 保存 汇总 数据 存在 一 些 现实 问题 。 第 一 个 问题 就 是 汇总 数据 蕴含 着 一 个 过 
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程 一 一 汇总 数据 永远 是 计算 过 程 的 结果 。 计 算 可 能 简单 也 可 能 复杂 。 任 何 情况 下 都 不 存在 孤 
立 的 汇总 数据 ， 它 总 是 和 汇总 过 程 联系 在 一 起 的 。 为 有 效 利用 从 计算 过 程 中 得 到 的 汇总 数据 ， 
DSS 分 析 员 必须 取得 汇总 数据 、 理 解 用 来 产生 汇总 数据 的 过 程 。 只 有 DSS 和 EIS 理 解 了 汇总 过 
程 和 汇总 数据 之 间 的 关系 ， 并 能 有 效 地 利用 汇总 数据 ， 汇 总 数据 才能 组 成 EIS 和 DSS 分 析 的 理 
想 基础 但是， 如果 EIS/DSS 分 析 员 不 理解 这 个 过 程 是 与 汇总 数据 密切 相关 的 ， 分 析 结果 可 能 
会 是 误导 性 的 。 

汇总 数据 的 第 二 个 问题 是 汇总 数据 可 能 处 于 也 可 能 不 处 于 即将 进行 分 析 所 需要 的 合适 的 
粒度 级 。 为 进行 EIS 和 DSS 处 理 ， 需 要 在 数据 的 细节 程度 和 汇总 程度 之 间 进 行 权衡 。 


7.10 小 结 


在 EIS 分 析 员 的 需求 和 数据 仓库 之 间 存 在 着 密切 联系 。 数 据 仓 库 显然 支持 EIS 分 析 员 的 所 
有 和 需求。 有 了 数据 仓库 ， EIS 分 析 员 就 不 再 处 于 被 动 地 位 ， 而 是 处 于 主动 地 位 了 。 

数据 仓库 使 EIS 分 析 员 能 处 理 以 下 管理 需要 : 

*， 快 捷 信息 存 取 。 

。 转 变 思 路 ( 即 ， 灵 活性 )。 

* 观察 集成 数据 。 

。 分 析 一 段 时 间 内 的 数据 。 

。 进 行 向 下 钴 取 。 

数据 仓库 为 EIS 分 析 员 的 分 析 提 供 了 数据 基础 。 





第 8 章 外 部 数据 与 数据 仓库 


大 部 分 企业 在 建立 其 第 一 个 数据 仓库 时 是 以 现 有 系统 〈 即 企业 的 内 部 系统 ) 作为 数据 源 
的 。 在 绝 大 部 分 情况 下 ， 从 现 有 系统 抽取 的 数据 可 称 为 内 部 结构 化 数据 。 数 据 来 自 于 企业 内 
部 ， 并 且 数 据 已 经 转换 成 一 种 规则 的 格式 。 

但 是 , 产生 于 企业 外 部 系统 的 数据 被 企业 大 量 使 用 也 是 很 正常 的 。 这 类 数据 称 作 外 部 数据 ， 
通常 是 以 非 结构 化 、 不 可 预测 的 格式 进入 企业 的 。 图 8-1 表 示 了 进入 数据 仓库 的 外 部 数据 。 


疆 材 
外 部 数据 全 


下- 口 


现 有 系统 数据 仓库 
图 8-1 外 部 数据 归 入 数据 仓库 


数据 仓库 是 存储 外 部 数据 的 理想 场所 。 如 果 外 部 数据 没有 存放 在 一 个 集中 确定 的 位 置 ， 
势必 会 产生 一 些 问题 。 图 8-2 表 明 当 外 部 数据 以 反 向 规范 的 形式 进入 企业 时 ， 就 失去 了 数据 来 
源 的 标识 ， 并 且 不 管 怎样 有 次 序 地 使 用 数据 都 不 存在 数据 间 的 协同 。 


《商业 周刊 》 


《华尔街 日 报 》 


《福布斯 》 


《新 闻 周 刊 》 





《洛杉矶 时 报 》 《 巴 伦 周刊 》 
图 8-2 外 部 数据 所 带 来 的 问题 
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一 般 来 说 ， 当 外 部 数据 没有 进入 数据 仓库 时 ， 这 些 数 据 通 过 PC 进入 企业 。 本 质 上 ， 在 PC 
级 上 进入 的 数据 不 存在 任何 错误 。 但 是 ， 当 数据 在 PC 级 上 进入 时 ， 几 乎 都 是 通过 电子 表格 或 
其 他 非 正 式 系统 方式 手工 输入 的 ， 并 且 绝 不 会 试图 捕获 有 关 附 加 在 数据 上 的 任何 数据 源 或 数 
据 完 整 性 的 信息 。 例 如 ， 在 图 8-2 中 分 析 员 得 到 了 《华尔街 日 报 》 中 的 一 个 报告 。 第 二 天 ， 这 
个 分 析 员 采用 《华尔街 日 报 》 中 的 数据 作为 某 个 报告 的 一 部 分 。 然 而 ， 当 此 报告 进入 企业 主 
数据 流 时 ， 有 关 原 始 数据 源 的 信息 就 丢失 了 。 

获取 外 部 数据 的 自由 方式 所 导致 的 另 一 个 困难 是 ， 在 以 后 很 难 再 使 用 这 些 数据 。 这 些 数 
据 进 入 企业 系统 ,使 用 一 次 后 便 消失 了 。 即 使 仅仅 几 个 星期 后 ， 也 很 难 找到 并 进一步 使 用 这 
些 外 部 数据 。 这 是 很 不 幸 的 ， 因 为 许多 来 自 外 部 数据 源 的 数据 在 一 段 时 间 范 围 内 都 是 非常 有 
用 的 ， 

以 下 是 外 部 数据 的 两 种 基本 类 型 : 

“通过 数据 源 (例如 药房 ， 超 级 市 场 等 ) 收集 到 的 外 部 数据 记录 。 

“来 自 于 随机 报告 、 文 章 及 其 他 数据 源 的 外 部 数据 。 

用 于 外 部 数据 记录 的 一 些 数 据 源 可 以 是 Dun&Bradstreet、Acxiom、IMS 等 。 

来 自 非 面向 记录 的 外 部 数据 源 的 数据 类 型 是 多 种 多 样 的 。 一 些 值 得 关注 并 且 有 用 的 外 部 
数据 的 典型 数据 源 如 下 

。《 华 尔 街 日 报 》。 

。《 商 业 周 刊 》。 

，《 福 布 斯》。 

。《 财 富 》。 

*。 行 业 新 闻 。 

。 技 术 报告 。 

“咨询 员 专 门 为 企业 研究 的 报告 。 

。Equifax 报 告 。 

。 竞 争 分 析 报告 。 

* 市 场 比较 与 分 析 报 告 。 

。 销 售 分 析 与 比较 报告 。 

。 新 产品 通告 。 

另外 ， 还 有 一 些 企业 内 部 的 报告 也 同样 值得 注意 : 

。 审 计 季 报 。 

*。 年 度 报告 。 

* 专 家 报告 。 

在 某 种 意义 芋 ， 由 基于 Web 的 电子 商务 环境 所 产生 的 数据 是 外 部 数据 。 由 于 这 种 数据 的 
细节 程度 非常 低 ， 数 据 在 使 用 之 前 必须 被 重新 构建 。 这 种 点 击 流 数 据 只 不 过 是 外 部 数据 的 一 
种 复杂 形式 。 


8.1 数据 仓库 中 的 外 部 数据 


在 数据 仓库 中 ， 存 在 一 些 与 外 部 数据 的 使 用 和 存储 相关 的 问题 。 外 部 数据 所 存在 的 一 个 
问题 是 可 用 频率 。 与 内 部 出 现 的 数据 不 同 ， 外 部 数据 的 呈现 没有 真正 固定 的 模式 。 当 为 了 确 
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保 捕获 正确 的 数据 而 必须 建立 永久 的 监控 方式 时 ， 这 种 不 规则 就 是 一 个 问题 。 在 一 些 环 境 中 ， 
比如 因特网 ， 可 以 创建 一 些 监 控 程 序 用 于 产生 自动 提示 信息 和 自动 加 载 。 

外 部 数据 的 第 二 个 问题 是 外 部 数据 的 形式 是 完全 没有 规则 的 。 为 了 使 之 有 用 并 能 放置 于 
数据 仓库 内 ， 就 必须 对 外 部 数据 进行 一 定 的 重新 格式 化 ， 将 其 转化 成 为 内 部 可 接受 的 、 可 用 
的 形式 。 一 般 是 在 外 部 数据 进入 数据 仓库 环境 时 对 其 进行 转换 。 外 部 的 关键 字数 据 转 换 成 内 
部 的 关键 字数 据 。 或 者 是 对 外 部 数据 进行 简单 的 编辑 ， 比 如 域 的 检查 。 另 外 ， 外 部 数据 需要 
经 常 重组 使 之 与 内 部 数据 相 匹配 ， 

在 某 些 情况 下 ， 外 部 数据 的 粒度 级 和 企业 内 部 系统 的 粒度 级 是 不 匹配 的 。 例 如 ， 假 设 一 
个 企业 已 经 有 了 大 量 的 普通 家 庭 的 信息 。 现 在 该 企业 又 购买 了 一 个 按 邮 编列 出 家 庭 平均 收入 
的 清单 。 根 据 外 部 数据 清单 ， 每 一 邮政 编码 区 域 的 家 庭 的 平均 收入 是 X 美 元 。 在 将 这 些 外 部 数 
据 与 内 部 数据 相 匹配 时 ， 内 部 数据 中 某 一 邮政 编码 中 的 每 一 个 家 庭 的 收入 根据 外 部 文件 指定 。 
(也 就 是 说 ， 一 些 家 庭 被 赋予 低 于 平均 值 的 收入 级 别 ， 而 其 他 的 家 庭 被 赋予 高 于 平均 值 的 收入 
级 别 。 但 是 ， 平 均 来 说 ， 家 庭 收入 是 比较 正常 的 。) 一 旦 收入 被 赋值 之 后 ， 数 据 可 以 通过 切片 
和 分 块 转换 成 许多 其 他 的 模式 。 

导致 外 部 数据 难以 获得 的 第 三 个 因素 是 其 不 可 预测 性 。 外 部 数据 儿 乎 在 任何 时 候 都 可 能 
来 自 于 任何 数据 源 。 

尽管 如 此 ， 仍 有 许多 获取 和 存储 外 部 信息 的 方法 。 最 佳 的 一 个 途径 是 将 其 存储 在 大 容量 
存储 介质 如 近 线 (near-line) 存储 设备 上 。 使 用 近 线 设备 ， 仍 然 可 以 访问 外 部 数据 而 且 花 费 不 
高 。 当 然 ， 可 以 对 外 部 数据 做 扩展 索引 ， 并 将 这 些 索引 同时 存储 在 磁盘 设备 和 近 线 设备 上 。 
用 这 种 方式 可 以 不 必 直 接 访 问 外 部 数据 而 管理 有 关 对 外 部 数据 的 请 求 。 另 外 ， 有 一 些 请 求 完 
全 可 以 在 外 部 数据 自身 的 索引 内 进行 处 理 。 还 有 ， 如 果 外 部 数据 的 一 个 外 部 索引 被 创建 后 ， 
外 部 数据 就 能 和 结构 化 数据 以 及 数据 仓库 关联 起 来 。 然 后 ， 此 索引 可 以 用 来 确定 将 哪些 外 部 
数据 传送 到 磁盘 设备 。 在 这 种 情况 下 ， 只 有 那些 做 了 预先 准备 和 预先 选择 的 外 部 数据 才 会 传 
送 到 磁盘 设备 。 

另外 一 种 时 常 有 效 的 处 理 外 部 数据 的 技术 是 创建 两 种 外 部 数据 的 存储 有 形式。 一 种 存储 包 
括 所 有 的 外 部 数据 ， 另 一 种 小 得 多 的 存储 只 包含 外 部 数据 的 一 个 子 集 。 这 个 子 集 可 以 在 大 的 、 
完全 的 外 部 数据 被 分 析 之 前 进行 存 取 和 分 析 。 这 样 一 来 ， 就 有 可 能 大 幅度 地 降低 工作 量 。 

外 部 数据 成 了 数据 仓库 的 附属 物 。 外 部 数据 通过 索引 和 数据 仓库 连接 起 来 ， 只 有 当 对 外 
部 数据 进行 限定 的 、 有 预先 准备 的 请 求 时 ， 它 才 被 引入 到 数据 仓库 。 


8.2 元 数据 和 外 部 数据 


如 前 所 述 ， 在 任何 方案 中 ， 元 数据 都 是 数据 仓库 的 一 种 重要 组 成 部 分 。 但 是 ， 当 面 对 存 
储 和 管理 外 部 数据 时 ， 元 数据 的 作用 呈现 出 完全 不 同 的 一 面 。 图 8-3 显 示 了 元 数据 的 作用 。 

元 数据 是 至 关 重 要 的 ， 因 为 在 数据 仓库 环境 中 正 是 通过 元 数据 来 对 外 部 数据 进行 注册 、 
访问 和 控制 的 。 在 数据 仓库 中 对 于 外 部 数据 来 说 ， 元 数据 的 典型 内 容 就 是 元 数据 重要 性 的 最 
好 解释 ， 例 如 : 

* 文 件 标识 符 (ID) 

“进入 数据 仓库 的 日 期 

* 文件 描述 

“文件 来 源 
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“文件 来 源 的 日 期 
“文件 的 分 类 
“索引 字 
“清理 日 期 
“物理 地 址 引用 
“文件 长 度 
“相关 引用 





元 数据 : 

-音信 “数据 他 诺 的 ) 日 其 
元 数据 。 描述 ， 

“来 源 


数据 仓库 。 分 类 
“索引 字 
“清理 日 期 
* 物理 地 址 引用 
。 长 度 
“相关 引用 
图 8-3 对 外 部 数据 ， 元 数据 起 着 新 的 作用 

正 是 通过 元 数据 ， 管 理 者 可 以 判断 许多 有 关外 部 数据 的 信息 。 在 许多 情况 下 ， 管 理 者 甚 
至 不 看 源 文件 ， 只 看 元 数据 。 浏 览 元 数据 可 为 管理 者 减少 大 量 的 工作 ， 因 为 它 过 滤 掉 了 不 相 
关 或 过 时 的 文件 。 因 此 ， 就 外 部 数据 而 言 ， 适 当地 建立 和 维护 元 数据 对 于 数据 仓库 的 操作 是 
完全 必要 的 。 

与 元 数据 有 关 的 另 一 种 数据 类 型 是 通知 数据 。 图 8-4 所 示 的 通知 数据 是 一 个 为 系统 用 户 创 
建 的 文件 ， 它 表明 用 户 所 关心 的 数据 的 分 类 。 当 数据 进入 数据 仓库 和 元 数据 时 ， 要 检查 谁 对 
该 数据 感 兴 趣 。 一 旦 发 现 获得 的 数据 是 某 人 感 兴趣 的 ， 就 向 那个 人 发 出 通知 。 


非 结构 :| 


通知 文件 
局 -六 阁 
数据 仓库 Oe 
OO 
OOPNOO 
OOONOO 


图 8-4 外 部 数据 和 元 数据 的 另 一 个 优点 是 能 够 创建 专门 的 通知 文件 
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8.3 存储 外 部 数据 


如 果 方 便 且 费用 允许 的 话 ， 外 部 数据 实际 上 可 以 存储 在 数据 仓库 中 。 但 在 许多 情况 下 ， 
将 所 有 的 外 部 数据 存储 在 数据 仓库 中 是 不 可 能 的 也 是 不 经 济 的 。 另 外 一 种 方法 是 ， 在 数据 仓 
库 的 元 数据 中 ， 对 外 部 数据 进行 登记 ， 创 建 一 个 条 目 来 说 明 什 么 地 方 能 找到 外 部 数据 本 身 ， 
而 外 部 数据 可 以 存储 在 任何 一 个 方便 的 地 方 ， 如 图 8-5 所 示 。 外 部 数据 可 能 存储 在 文件 柜 中 、 
缩微 胶片 、 磁 带 上 等 等 。 








文件 柜 


图 8-5 在 任何 情况 下 ， 外 部 数据 总 是 与 元 数据 一 起 进行 登记 ， 但 实际 
数据 依据 其 大 小 和 存 取 概率 来 决定 是 否 存 储 在 数据 仓库 中 
不 论 怎么 做 ， 存 储 外 部 数据 都 需要 相当 多 的 资源 。 外 部 数据 与 数据 仓库 关联 起 来 后 ， 公 
司 的 各 个 部 门 ， 比 如 财政 部 门 、 市 场 部 、 会 计 部 、 销 售 部 、 工 程 部 等 等 都 可 以 使 用 外 部 数据 。 
言 外 之 意 ， 一 旦 数据 被 集中 地 捕获 和 管理 ， 公 司 就 不 得 不 一 次 承受 处 理 这 些 数据 的 花费 。 但 
是 ， 如 果 外 部 数据 没有 和 数据 仓库 关联 起 来 的 话 ， 那 么 公司 不 同 的 部 门将 很 有 可 能 捕捉 和 存 
储 相同 的 数据 。 这 种 精力 和 资源 的 重复 是 一 种 极 大 的 浪费 ， 也 需要 付出 很 大 的 代价 。 


8.4 外 部 数据 的 不 同 部 件 


外 部 数据 的 重要 设计 问题 之 一 是 它 经 常 包括 许多 不 同 的 部 件 ， 其 中 一 些 部 件 要 比 其 他 部 
件 有 用 得 多 。 作 为 一 个 例子 ， 考 虑 一 个 所 购买 的 产品 的 完整 生产 历史 记录 。 生 产 过 程 的 某 些 
方面 是 很 重要 的 ， 如 从 开始 生产 到 最 后 装配 的 时 间 长 度 。 另 一 个 重要 的 生产 度量 是 所 有 装配 
前 的 原材料 的 总 成 本 。 但 还 有 许多 其 他 不 重要 的 信息 同样 也 与 生产 信息 相关 ， 例 如 生产 的 实 
际 日 期 、 装 运 说 明 书 ， 生 产 温度 。 

为 了 管理 这 些 数据 ， 有 经 验 的 DSS 分 析 员 或 工程 师 需 要 决定 哪些 数据 单元 是 最 重要 的 ， 
然后 将 最 重要 的 数据 存储 在 一 个 联机 的 、 容 易 访问 的 位 置 。 这 是 一 个 存储 和 访问 效率 的 问题 。 
其 余 不 重要 的 细节 不 能 丢弃 ， 而 是 将 其 放 在 大 容量 存储 设备 中 。 以 这 种 方式 ， 就 能 留 有 效 地 
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存储 和 管理 大 量 的 外 部 数据 了 。 
8.5 建 模 与 外 部 数据 


数据 模型 和 外 部 数据 的 关系 是 什么 ?图 8-6 反 映 了 这 个 问题 。 数据 模型 通常 的 作用 是 根据 
设计 塑造 环境 。 但 外 部 数据 是 根本 不 可 塑 的 。 所 以 ， 看 起 来 好 像 数据 模型 和 外 部 数据 之 间 没 
什么 关系 。 能 做 的 最 有 用 的 事 就 是 在 相关 的 关键 词 和 关键 字 解 释 范围 内 ， 记录 数据 模型 和 外 
部 数据 之 间 的 区 别 。 使 用 数据 模型 对 外 部 数据 进行 任何 重大 改造 都 将 是 一 个 错误 。 我 们 能 做 
的 顶 多 是 创建 一 个 与 现 有 内 部 数据 兼容 的 数据 子 集 。 


数据 模型 





数据 仓库 
图 8-6 外 部 数据 与 数据 模型 通常 只 有 极 少 的 相似 之 处 ， 而 且 数据 模型 对 外 部 数据 的 改造 无 能 为 力 
8.6 辅助 报告 


不 仅 原始 数据 能 放 入 数据 仓库 ， 如 果 数 据 是 重复 性 的 ， 可 以 按时 间 根 据 细 节 数 据 来 产生 
辅助 报告 。 例 如 图 8-7 所 示 的 月 底 道 ， 琼 斯 工业 平均 指数 报告 。 





。 一 月 一 月 三 月 四 月 五 月 六 月 七 月 八 月 九 月 十 月 十 -月 十 一 月 一 月 二 月 三 月 
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在 图 8-7 中 ， 道 . 琼斯 指数 信息 每 天 导入 数据 仓库 环境 。 每 天 的 信息 是 有 用 的 ， 但 更 令 人 
感 兴趣 的 是 由 此 产生 的 长 期 趋势 信息 。 月 底 ， 有 关 道 : 琼斯 平均 指数 的 信息 记 入 一 个 辅助 报 
告 中 ， 于 是 辅助 报告 就 成 为 数据 仓库 中 所 存储 的 外 部 数据 的 一 部 分 。 


8.7 外 部 数据 存档 


每 一 条 信息 (外 部 的 或 其 他 的 ) 都 有 一 个 有 用 的 生命 周期 。 一 旦 超出 了 这 个 生命 周期 ， 
保存 这 些 信息 就 不 经 济 了 。 管 理 外 部 数据 的 一 个 基本 部 分 就 是 决定 数据 的 使 用 生命 周期 。 即 
使 确定 了 生命 周期 ， 仍 然 还 有 一 个 数据 是 否 丢弃 或 存档 的 问题 。 通 常 ， 外 部 数据 可 能 从 数据 
仓库 移出 并 放 到 较 便宜 的 存储 设备 中 。 元 数据 对 外 部 数据 的 引用 应 及 时 更 新 来 反映 新 的 存储 
位 置 ， 并 且 新 的 存储 位 置 仍然 保留 在 元 数据 存储 单元 中 。 存 储 位 置 在 元 数据 中 的 费用 是 很 低 
的 ， 因 此 一 旦 放 在 那里 ， 最 好 留 在 那里 。 


8.8 内 部 数据 与 外 部 数据 的 比较 


外 部 数据 最 有 用 的 一 个 功能 是 在 一 定时 间 范 围 内 将 其 与 内 部 数据 进行 比较 。 这 种 比较 可 
以 提供 给 管理 者 一 个 独特 的 视角 。 例如， 将 即时 性 的 个 体 的 行为 和 趋势 与 普遍 的 行为 和 趋势 
进行 比较 ， 能 使 主管 获得 其 他 地 方 得 不 到 的 见解 。 图 8-8 给 出 这 样 的 一 个 比较 。 


工业 界 销售 


(十 亿 为 单位 、、 


企业 销售 
( 百 万 为 单位 ) 





1990. 1991 1992 1993 1994 1995 1996 


图 8-8 外 部 数据 与 内 部 数据 比较 可 以 是 很 明晰 的 


当 进行 外 部 数据 和 内 部 数据 的 比较 时 ， 假 设 比较 在 一 个 公共 主键 上 进行 。 任 何其 他 的 假 
设 都 会 使 外 部 数据 和 内 部 数据 的 比较 丢失 其 有 用 性 。 不 幸 的 是 ， 在 外 部 数据 和 内 部 数据 之 间 
找到 一 个 公共 主键 是 不 容易 的 。 

为 了 理解 这 种 难度 的 程度 ， 来 看 两 个 例子 。 第 一 个 例子 中 ， 所 卖 的 商品 是 大 的 、 昂 贵 的 
物品 ， 如 汽车 或 电视 机 。 为 了 进行 有 意义 的 比较 ， 对 由 实际 销路 卖 出 的 商品 需要 进行 度量 。 
零售 商 的 实际 销售 量 是 比较 的 基础 。 不 幸 的 是 ， 数 据 的 外 部 数据 源 使 用 的 主键 结构 与 内 部 系 
统 使 用 的 主键 结构 并 不 相同 。 要 将 外 部 数据 源 转换 成 内 部 数据 源 的 主键 结构 ， 或 者 相反 。 这 
种 转换 是 很 费事 的 。 

现在 来 考虑 量 大 、 成 本 低 的 商品 的 销售 度量 ， 例 如 可 乐 。 公 司 的 内 部 销售 数据 反映 了 可 
乐 的 销售 情况 ， 但 外 部 销售 数据 将 可 乐 的 销售 与 其 他 饮料 (如 啤酒 ) 的 销售 混在 一 起 .将 这 
两 种 销售 数据 进行 比较 将 导致 错误 的 结论 。 为 了 进行 有 意义 的 比较 ， 需 要 对 外 部 销售 数据 进 
行 “清理 ” 以 使 其 只 包含 可 乐 。 如 果 事实 上 只 包括 生产 和 销售 的 瓶装 可 乐 。 那 么 不 仅 要 将 啤 
酒 从 外 部 销售 数据 中 剔除 出 去 ， 也 要 将 非 竞争 的 可 乐 类 型 剔除 出 去 。 


8.9 小 结 
数据 仓库 不 仅 能 够 拥有 内 部 的 、 结 构 化 的 数据 ， 还 有 许多 与 企业 运营 有 关 的 信息 来 自 企 
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业 以 外 的 数据 源 。 

获得 外 部 数据 后 ， 有 关 元 数据 的 信息 存储 在 数据 仓库 的 元 数据 中 。 当 数据 从 外 部 环境 进 
入 数据 仓库 环境 时 ， 外 部 数据 经 常 要 经 过 相当 数量 的 编辑 和 转换 。 描 述 外 部 数据 的 元 数据 和 
非 结构 化 数据 的 元 数据 实际 上 是 一 种 索引 信息 。 关 于 索引 信息 有 许多 可 以 做 的 ， 比 如 将 索引 
信息 存放 在 磁盘 设备 和 近 线 设 备 上 ， 创 建 数 据 仓 库 与 非 结 构 化 数据 的 链接 ， 进 行内 部 索引 处 
理 等 等 。 另 外 ， 当 有 新 的 外 部 数据 进入 数据 仓库 时 ， 经 常会 提供 “通知 ”服务 。 

外 部 和 非 结 构 化 数据 实际 并 不 一 定 存储 在 数据 仓库 中 。 通 过 将 外 部 和 非 结 构 化 数据 与 数 
据 仓 库 关 联 起 来 ， 公 司 可 以 不 用 将 外 部 和 非 结构 化 数据 存储 在 多 个 地 方 。 因 为 与 非 结构 化 数 
据 相 关联 的 数据 往往 数量 很 大 ， 所 以 至 少 应 该 将 一 部 分 非 结 构 化 数据 存储 到 大 容量 存储 设备 ， 
如 近 线 存储 设备 上 。 





第 9 章 迁移 到 体系 结构 化 环境 


在 当今 现实 环境 中 ， 若 想 仓促 地 实现 任何 一 种 体系 结构 ， 都 是 注定 要 失败 的 。 实 现 一 个 
体系 结构 存在 许多 风险 ， 同 时 也 可 能 需要 等 待 很 长 的 时 间 以 后 才能 得 到 回报 。 另 外 ， 想 在 建 
成 以 后 就 不 再 对 体系 结构 做 任何 调整 ， 也 就 是 说 在 体系 结构 建立 时 ， 不 采用 渐进 式 的 建立 方 
法 ， 而 想 一 典 而 就 是 不 现实 的 。 

幸好 ,迁移 到 体系 结构 化 的 数据 仓库 环境 中 的 工作 是 一 个 逐步 完成 的 过 程 。 每 个 步骤 只 
需要 完成 有 限 的 可 交付 工作 。 一 般 ， 实 现 得 最 为 成 功 的 体系 结构 化 环境 是 那些 以 反复 式 建立 
起 来 的 数据 仓库 环境 。 采 用 这 种 方式 建立 数据 仓库 只 需要 少量 的 人 力 资源 ， 对 现 有 应 用 环境 
造成 的 影响 或 破坏 也 很 小 。 这 种 渐进 式 的 开发 方式 ， 开 发 工作 的 规模 和 速度 都 很 重要 ， 结 果 
也 必须 尽快 地 体现 。 

本 章 中 ， 将 讨论 一 种 常见 的 迁移 方案 和 开发 方法 。 该 迁移 方案 已 经 成 功 地 被 许多 企业 采 
用 ， 决 不 是 凭空 搬出 来 的 。 方 法 本 身 源 自 于 众多 企业 的 实践 经 验 。 当然 ， 每 个 企业 的 方法 都 
会 有 所 不 同 ， 或 在 顺序 上 有 点 不 同 。 但 是 ， 因 为 这 种 迁移 方案 和 方法 已 经 在 许多 不 同 的 企业 
取得 了 很 大 的 成 功 ， 因 此 ， 这 点 非常 有 益 于 树立 需要 面 对 各 种 企业 应 用 模型 的 开发 者 的 信心 。 


9.1 一 种 迁移 方案 


这 种 迁移 方案 的 起 点 是 一 个 企业 数据 模型 。 该 数据 模型 描述 了 企业 的 信息 需求 。 需 要 清 
楚 的 是 ， 它 描述 的 是 企业 需要 的 信息 ， 而 并 不 一 定 是 企业 当前 已 经 具有 的 东西 。 在 建立 这 个 
数据 模型 时 ， 并 不 考虑 任何 技术 问题 。 

企业 数据 模型 可 以 以 内 在 的 方式 建立 起 来 ， 也 可 以 通过 一 个 通用 数据 模型 生成 。 企 业 数 
据 模 型 (至少 ) 要 能 标识 出 如 下 的 内 容 : 

“企业 的 主要 主题 。 

“企业 的 各 个 主要 主题 的 定义 。 

。 各 个 主要 主题 之 间 的 关系 。 

“更 全 面 地 描述 各 个 主要 主题 的 各 个 关键 字 和 属性 分 组 ， 包 括 : 

*。 主要 主题 的 属性 集 。 

。 主 要 主题 的 关键 字 集 。 

“关键 字 集 和 属性 集 的 重复 组 (repeating group )。 

。 各 个 主要 主题 域 之 间 的 连接 。 

* 了 于 类 关系 。 

在 理论 上 ,建立 体系 结构 化 的 以 数据 仓库 为 中 心 的 环境 可 以 不 要 数据 模型 ， 然 而 ， 实 际 
中 从 来 没有 人 这 样 做 。 不 用 数据 模型 建立 数据 仓库 环境 ， 就 像 没有 地 图 的 航行 一 样 。 或 许 能 
够 成 功 ， 就 如 一 个 从 未 离开 过 得 克 萨 斯 的 人 ， 到 达 纽 约 的 拉 瓜 迪 亚 机 场 后 ， 手 上 没有 地 图 ， 
也 没 人 指 路 ， 想 开车 到 曼哈顿 中 区 去 一 样 ， 他 或 许 真能 到 达 目 的 地 ， 但 肯定 会 出 很 多 岔 子 和 
错误 。 

图 9-1 表 明 ， 建 立 或 者 获得 一 个 数据 模型 是 迁移 过 程 的 起 点 。 通 常 ， 企 业 数 据 模 型 在 高 的 
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层面 上 对 企业 的 信息 进行 标识 。 从 企业 数据 模型 可 以 建立 较 低层 次 的 模型 。 低层 模型 对 企业 
数据 模型 概略 描述 的 信息 进行 详细 地 描述 。 这 个 中 间 层 模型 是 根据 企业 数据 模型 所 描述 的 各 
个 主题 域 建立 起 来 的 ， 每 次 只 建立 一 个 主题 域 ， 而 不 是 一 次 就 将 所 有 的 主题 域 都 建立 起 来 ， 


否则 将 会 耗费 大 量 的 时 间 。 
现 有 系统 环境 (CD) 


[| 数据 模型 


现 有 系统 环境 


2 
CY 






| - 


表述 数据 模型 的 “最 好 ”数据 : 
。 最 实时 

。 最 精确 

“最 完备 

“与 外 部 数据 源 最 近 

。 最 具有 结构 兼容 性 


图 9-1 迁移 到 体系 结构 化 环境 


企业 数据 模型 及 其 相关 的 中 间 层 模型 只 关心 企业 的 原子 数据 ， 在 这 些 模型 中 并 不 包含 导 
出 数据 和 DSS 数据 。 相 反 ， 导 出 数据 和 DSS 数据 被 有 目的 地 排除 在 企业 数据 模型 和 中 间 层 模型 
之 外 

将 导出 数据 和 DSS 数据 排除 在 企业 数据 模型 和 中 间 层 模型 之 外 的 原因 有 以 下 几 条 : 

。 导 出 数据 和 DSS 数据 是 经 常 变 化 的 。 

。 这 些 形式 的 数据 是 由 原子 数据 生成 的 。 

。 这 些 数据 常 被 全 部 删除 。 

。 导 出 数据 和 DSS 数据 的 建立 过 程 中 有 很 多 变化 因素 。 

因为 导出 数据 和 DSS 数据 被 排除 在 企业 数据 模型 和 中 间 层 模型 之 外 ， 所 以 ， 建 立 数据 模 
型 所 需 的 时 间 就 不 会 太 长 了 。 

企业 数据 模型 和 中 间 层 模型 建立 好 以 后 ， 下 一 步 工 作 就 是 定义 记录 系统 ， 记 录 系 统 是 由 
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企业 现 有 系统 来 定义 的 。 通 常 ， 这 些 旧 的 历史 系统 较为 “混乱 ”。 

定义 记录 系统 只 不 过 是 要 找 出 企业 所 具有 的 “最 好 的 ”数据 ， 这 些 数据 存储 在 传统 操作 
型 环境 中 ， 或 者 在 基于 Web 的 电子 商务 环境 中 。 此 时 ， 数 据 模型 将 作为 判定 最 好 的 数据 的 标 
准 。 换 名 话说， 数据 体系 结构 设计 人 员 从 数据 模型 开始 ， 找 到 手中 最 符合 数据 模型 需求 的 数 
据 。 当 然 了 ， 符 合 要 求 的 数据 未 必 是 完美 的 。 有 了 时， 在 现 有 系统 环境 或 基于 Web 的 电子 商务 
环境 中 找 不 到 符合 数据 模型 要 求 的 数据 。 而 在 另外 的 一 些 情况 下 ， 现 有 系统 环境 中 ， 有 许多 
数据 源 能 在 不 同 的 情形 下 为 记录 系统 提供 数据 。 

在 现 有 数据 或 者 基于 Web 的 电子 商务 环境 找到 的 数据 中 ， 哪 些 数 据 源 “最 好 ”是 由 如 下 
标准 来 衡量 的 : 

。 现 有 系统 环境 中 或 基于 Web 的 电子 商务 环境 中 的 哪些 数据 是 最 完备 的 ? 

。 现 有 系统 环境 中 或 基于 Web 的 电子 商务 环境 中 的 哪些 数据 是 最 实时 的 ? 

。 现 有 系统 环境 中 或 基于 Web 的 电子 商务 环境 中 的 哪些 数据 是 最 准确 的 ? 

。 现 有 系统 环境 中 或 基于 Web 的 电子 商务 环境 中 的 哪些 数据 是 与 输入 现 有 系统 环境 和 基于 

Web 的 电子 商务 环境 的 数据 源 最 接近 的 ? 

。 现 有 系统 环境 中 或 基于 Web 的 电子 商务 环境 中 的 哪些 数据 最 好 地 遵循 了 数据 模型 的 数据 

结构 ? 按 关键 字 判 断 ? 按 属 性 判断 ? 或 是 按 多 个 数据 属性 的 组 合 来 判断 ? 

利用 定义 好 的 数据 模型 和 此 处 给 出 的 衡量 标准 ， 分 析 员 就 可 以 定义 出 记录 系统 。 记 录 系 
统 就 成 为 数据 仓库 模型 的 数据 源 的 定义 。 定 义 好 以 后 ， 设 计 人 员 开 始 寻 找 将 记录 系统 中 的 数 
据 迁 移 到 数据 仓库 中 所 面临 的 技术 挑战 。 下 面 是 常见 技术 问题 的 简 表 : 

。DBMS 的 变化 ， 即 记录 系统 是 在 一 个 DBMS 中 ， 而 数据 仓库 在 另 一 个 DBMS 中 。 

。 操 作 系统 的 变化 ， 记 录 系 统 在 一 个 操作 系统 中 ， 而 数据 仓库 在 另 一 个 操作 系统 中 。 

。 需 要 将 源 自 不 同 DBMS 和 操作 系统 的 数据 合并 起 来 。 记 录 系 统 涉及 多 个 DBMS 和 /或 操作 

系统 。 这 样 ， 记 录 系 统 中 的 数据 必须 从 多 个 DBMS 和 多 个 操作 系统 中 抽取 出 来 ， 并 以 一 

种 有 意义 的 方式 合并 起 来 。 

* 在 Web 日 志 中 获取 基于 Web 的 数据 ， 一 旦 捕获 到 数据 以 后 ， 如 何 才能 将 数据 放 和 人 数据 仓 
库 中 随意 使 用 ? 

。 基 本 数据 格式 的 变化 ， 如 某 个 环境 中 的 数据 是 用 ASCII 码 存储 ， 那 么 数据 仓库 中 的 数据 

用 EBCDIC 存 储 的 等 等 。 

有 时 ， 需 要 强调 的 另 一 个 重要 的 技术 问题 是 数据 量 。 在 有 些 情 况 下 ， 在 历史 数据 模型 中 
生成 了 大 量 的 数据 ， 可 能 需要 特别 的 技术 将 这 些 大 规模 的 数据 集 柚 到 数据 仓库 中 。 例 如 ,在 
Web 日 志 中 的 点 击 流 数 据 ， 在 进入 数据 仓库 环境 并 得 到 有 效 使 用 以 前 ， 必 须 先进 行 预 处 理 。 

还 有 其 他 一 些 问题 ， 在 有 些 情况 下 ， 必 须 先 对 进入 数据 仓库 的 数据 进行 清理 。 有 另外 的 
一 些 情况 下 ， 数 据 必须 先进 行 汇 总 。 与 将 数据 从 历史 环境 迁移 到 数据 仓库 环境 的 机 制 相关 的 
问题 有 很 多 很 多 。 

在 定义 好 记录 系统 并 找 出 了 将 数据 迁移 到 数据 仓库 所 涉及 的 技术 挑战 之 后 ， 下 一 步 就 是 
设计 数据 仓库 ， 如 图 9-2 所 示 。 

如 果 数 据 建 模 工 作 进 行 得 很 好 ， 数 据 仓库 的 设计 工作 就 相当 简单 。 只 需 对 企业 数据 模型 
和 中 间 层 数据 模型 的 少数 几 个 方面 进行 修改 ， 就 可 以 将 数据 模型 转变 为 一 个 数据 仓库 的 设计 。 
要 做 的 工作 主要 有 : 

。 如 果 原 先 没 有 时 间 元 素 的 话 ， 时 间 元 素 必 须 加 入 到 关键 字 结构 中 。 
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。 必 须 清除 所 有 的 纯 操 作 型 数据 。 
。 将 参照 完整 性 关系 转换 成 人 工 关系 。 
。 将 经 常 需要 用 到 的 导出 数据 加 入 到 设计 中 。 


区 © 
性 i 


设计 数据 仓库 






现 有 系统 下 呈 
设计 数据 仓库 


抽取 
集成 


改变 数据 的 时 基 
压缩 数据 
高 效 扫描 数据 


图 9-2 迁移 到 体系 结构 化 环境 


为 了 适合 以 下 各 项 要 求 ， 需 要 对 数据 的 结构 进行 调整 : 

。 增 加 数据 阵列 。 

。 增 加 数据 元 余 。 

。 在 合适 的 情况 下 进一步 分 离 数据 。 

。 在 合适 的 时 候 合 并 数据 表 。 

需要 做 数据 的 稳定 性 分 析 。 在 稳定 性 分 析 过 程 中 ， 将 时 常 变动 的 数据 和 十 分 稳定 的 数据 
分 开 。 例如 ,银行 账户 余额 是 频繁 变动 的 数据 : 一 天 3~4 次 ; 而 顾客 地 址 数据 的 改变 频率 很 低 : 
3~4 年 或 更 长 。 因 为 银行 账户 余额 数据 和 客户 地 址 数据 的 稳定 性 的 显著 差别 ， 需 要 将 它们 分 别 
存放 于 不 同 的 物理 结构 中 。 

一 旦 设计 数据 仓库 ， 就 必须 按 主题 域 进行 组 织 ， 典 型 的 主题 域 有 : 

。 顾 客 

“产品 

“销售 

。 账 目 


L | 
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"活动 

“ 运 货 

在 主题 域内 ， 有 许多 独立 的 数据 表 ， 每 张 表 都 通过 一 个 公用 关键 字 连 接 。 例 如 ， 所 有 的 
客户 表 都 有 CUSTOMER 属 性 作为 关键 字 。 

在 数据 仓库 设计 这 一 点 上 ， 需 要 考虑 的 一 个 重要 因素 是 数据 的 取 值 个 数 。 对 取 值 个 数 非 
常 多 的 数据 进行 设计 时 所 需 芳 虚 的 各 种 因素 ， 不 同 于 对 取 值 个 数 很 少 的 数据 进行 设计 时 所 需 
考虑 的 因素 。 一 般 ， 数 据 量 很 大 的 数据 将 被 汇总 、 聚 集 或 分 区 (或 三 种 方法 都 考虑 )。 有 时 ， 也 
需要 为 这 样 的 数据 建立 概要 记录 。 

同样 ， 快 速 到 达 《 通 常情 况 下 是 快速 的 ， 并 不 总 是 快速 的 ， 与 大 数据 量 数据 相关 的 快速 
问题 ) 数据 仓库 的 数据 也 需要 特别 考虑 。 在 有 些 情 况 ， 数 据 的 到 达 率 很 高 ， 为 此 需要 采用 一 
定 的 措施 来 处 理 大 规模 的 数据 流量 。 典 型 的 处 理 方 法 包括 数据 缓冲 、 装 载 流 的 并 行 化 处 理 、 
延迟 索引 ， 等 等 。 

数据 仓库 设计 好 以 后 ， 下 一 步 就 是 设计 和 建立 〈 操 作 型 环境 中 的 ) 记录 系统 和 数据 仓库 
之 间 的 接口 ， 这 些 接口 有 规律 地 将 数据 装载 到 数据 仓库 。 

初 看 起 来 ， 这 些 接 口 似乎 仅仅 是 一 个 数据 抽取 过 程 。 数 据 抽取 过 程 确 实 是 在 此 进行 的 ， 
但 是 ， 在 接口 中 还 包括 了 许多 其 他 工作 : 

“来 自 操作 型 的 、 面 向 应 用 的 环境 的 数据 的 集成 。 

“数据 时 间 基 准 的 变更 。 

“ 数据 压缩 。 

“对 现 有 系统 环境 的 有 效 扫 描 。 

其 中 的 多 数 问题 已 经 在 本 书 的 其 他 部 分 讨论 过 了 。 

有 意思 的 是 ， 建 立 一 个 数据 仓库 所 需要 的 大 多 数 开发 资源 都 花费 在 这 点 上 了 。 将 建立 数 
据 仓 库 所 需 的 80% 的 精力 都 花费 在 这 个 地 方 ， 是 正常 的 。 在 规划 数据 仓库 的 开发 工作 时 ， 许 
多 开发 者 都 过 高 地 估计 了 其 他 工作 所 需要 的 时 间 ， 而 过 低估 计 了 设计 和 建立 操作 型 环境 与 数 
据 仓 库 环 境 之 间 的 接口 所 需 的 时 间 。 除 了 起 初 建 立 数据 仓库 的 接口 所 需要 的 资源 以 外 ， 还 需 
要 考虑 对 接口 的 日 常 维护 所 需 的 资源 。 幸 好 ， 现 在 可 以 用 ETL 软件 建立 和 维护 这 种 接口 。 

一 旦 设计 并 建立 了 接口 程序 ， 下 一 步 工 作 就 是 开始 载 入 第 一 个 主题 域 ， 如 图 9-3 所 示 。 载 
和 人 过 程 在 概念 上 非常 简单 。 从 历史 环境 中 读 出 第 一 部 分 数据 ， 数 据 被 捕获 后 ， 将 其 传送 到 数 
据 仓库 环境 中 。 一 旦 数据 仓库 中 的 数据 装载 完成 ， 就 修改 记录 条 目 ， 创 建 相 应 元 数据 ， 建 立 
相应 索引 。 这 样 ， 第 一 次 循环 中 的 数据 就 存放 在 数据 仓库 中 了 ， 可 以 用 于 分 析 应 用 了 。 

在 这 个 阶段 ， 只 装载 数据 仓库 所 需 数据 中 的 一 部 分 是 很 有 道理 的 。 装 载 以 后 ， 很 可 能 需 
要 对 数据 作 必要 的 调整 。 只 载 人 一 小 部 分 数据 可 以 简单 快速 地 完成 这 些 调整 。 一 次 载 人 大 量 
的 数据 会 使 数据 仓库 在 很 大 程度 上 形 失 灵活 性 。 一 旦 最 终 用 户 有 机 会 观察 数据 (尽管 只 是 数 
据 样本 )， 并 向 数据 体系 结构 设计 人 员 反 馈 情况 ， 载 人 大 量 数据 就 可 以 安全 地 进行 了 。 如 果 最 
终 用 户 还 没 来 得 及 观察 实验 数据 并 进行 相应 调试 ， 将 大 量 的 数据 载 和 数据 仓库 是 不 安全 的 。 

最 终 用 户 的 操作 模式 可 以 称 为 “发 现 模式 ”。 最 初 ， 最 终 用 户 不 知道 他 们 的 需求 是 什么 ， 
直到 他 们 看 到 系统 所 能 提供 的 各 种 可 能 性 之 后 ， 才 会 提出 相应 的 要 求 。 一 开始 就 将 大 量 的 数据 
载 入 到 数据 仓库 中 很 危险 ， 数 据 载 入 以 后 一 般 都 需要 对 数据 进行 调整 。Jon Geiger 曾 说 : 建立 
数据 仓库 的 模式 是 “第 一 次 将 其 建 错 *。 这 种 半 开 玩笑 式 的 断言 实际 上 包含 了 很 大 的 真理 成 分 。 

载 人 和 反馈 过 程 会 持续 一 段 很 长 的 时 间 (没有 限期 )。 另 外 ， 数 据 仓 库 中 的 数据 在 此 过 程 
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中 也 需要 不 断 地 调整 。 当 然 ， 随 着 时 间 的 流逝 ， 当 数据 稳定 以 后 ， 变 化 将 越 来 越 小 。 


现 有 系统 环境 






= 


现 有 系统 环境 
















和 
2 四 继续 载 人 并 鼓励 数 
计生 据 集 市 部 门 使 用 





法 建立 数 





| 
图 9-3 以 反复 的 方式 迁移 到 体系 结构 化 环境 


这 时 ， 注 意 这 么 一 句 话 : 如 果 等 待 现 有 系统 做 好 清理 工作 再 载 入 数据 ， 你 将 永远 无 法 建 
立 一 个 数据 仓库 。 现 有 系统 的 操作 型 环境 下 的 问题 和 活动 必须 独立 于 数据 仓库 环境 下 的 问题 
和 活动 。 有 相当 多 的 观点 认为 ,，“ 在 操作 型 环境 清理 好 以 前 ， 别 建立 数据 仓库 ”。 这 种 思考 方 
法 在 理论 上 具有 一 定 的 吸引 力 ， 但 在 实际 上 根本 行 不 通 。 

在 这 点 上 ， 有 一 个 很 有 研究 价值 的 问题 是 数据 仓库 中 数据 的 刷新 频率 。 通常 ， 数 据 仓库 
中 数据 的 刷新 频率 不 应 超过 每 24 小 时 一 次 。 在 装载 数据 的 时 候 ， 确 保 数据 起 码 有 24 小 时 的 时 
延 ， 数 据 仓 库 的 开发 者 就 能 将 数据 仓库 赔 变 为 操作 型 环境 的 可 能 性 降低 到 最 小 程度 。 通 过 严 
格 地 执行 这 个 延 时 操作 ， 数 据 仓库 服务 于 企业 的 DSS 需 要 ， 而 不 是 日 常 业 务 运作 型 需求 。 多 
数 操作 型 处 理 依赖 于 存 取 瞬 间 具 有 准确 性 的 数据 (当前 值 数据 )。 通 过 确保 (至少 ) 有 24 小 时 
的 时 延 ， 数 据 仓 库 开发 者 将 为 项 目的 成 功 增加 一 个 重要 的 夸 码 。 

在 有 些 情况 下 ， 兴 后 时 间 可 以 超过 24 小 时 。 如 果 数 据 仓库 之 上 的 应 用 环境 不 需要 这 些 数 
据 ， 则 没有 必要 将 这 些 数据 按 每 周 、 每 月 或 每 季 的 方式 载 人 数据 仓库 ， 就 让 数据 存放 在 操作 
型 环境 中 。 如 果 需 要 对 数据 作 调整 ， 就 可 以 在 操作 型 环境 中 进行 。 由 于 这 些 数据 还 没有 载 人 
到 数据 仓库 环境 中 ， 这 些 调整 不 会 对 数据 仓库 造成 任何 影响 。 

但 是 在 某 些 情况 下 ， 需 要 迅速 地 把 数据 放 入 数据 仓库 ， 在 这 种 情况 下 ， 主 动 数 据 仓库 技 
术 是 很 有 用 的 。 主 动 数据 仓库 技术 能 够 支持 在 数据 仓库 中 进行 少量 的 联机 访问 处 理 。( 可 参看 
有 关 主 动 数据 仓库 例子 中 的 “万 亿 数 据 ”) 


9.2 反馈 循环 
数据 仓库 长 期 开发 成 功 的 关键 是 数据 体系 结构 设计 人 员 和 DSS 分 析 人 员 之 间 的 反馈 循环 ， 
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如 图 9-4 所 示 。 图 9-4 表 明 ， 数 据 仓库 是 从 现 有 系统 的 数据 进行 载 入 。DSS 分 析 人 员 将 数据 仓库 
作为 分 析 的 基础 。 在 寻找 新 机 会 的 过 程 中 ，DSS 分 析 人 员 将 那些 需求 交 给 数据 体系 结构 设计 
人 员 ， 以 便 他 们 再 去 做 出 适当 的 调整 。 根 据 接触 过 数据 仓库 的 最 终 用 户 提出 的 要 求 ， 数 据 体 
系 结构 设计 人 员 可 能 增加 数据 、 删 除数 据 、 更 改 数据 等 等 。 


现 有 系统 环境 


数据 体系 结构 设计 人 员 


图 9-4 DSS 分 析 人 员 与 数据 体系 结构 设计 人 员 之 间 的 关键 反馈 循环 


关于 这 个 反馈 循环 ， 有 几 个 问题 对 于 数据 仓库 环境 的 成 功 来 说 是 至 关 重 要 的 : 

。DSS 分 析 人 员 要 遵循 “给 我 想 要 的 东西 ， 然 后 我 就 能 告诉 你 我 真正 需要 的 东西 ”的 工作 
模式 。 在 DSS 分 析 人 员 知 道 数据 仓库 所 能 提供 的 东西 以 前 ， 试 图 从 他 们 那里 获取 需求 信 
息 是 不 可 能 的 。 | 

。 反 馈 循 环 的 周期 越 短 ， 越 有 可 能 成 功 。DSS 分 析 人 员 一 旦 提出 需要 对 数据 仓库 做 出 修改 
以 后 ， 这 些 更 改 需要 尽快 地 加 以 实现 。 

。 需 要 调整 的 数据 量 越 大 ， 反 馈 循环 所 需要 的 周期 就 越 长 。 更 改 10GB 的 数据 要 比 更 改 
100GB 的 数据 容易 得 多 。 

数据 仓库 环境 中 ， 热 行 反馈 循环 失败 大 大 降低 了 成 功 的 概率 。 


9.3 策略 方面 的 考虑 


图 9-5 表 明 ， 前 面 已 经 提 到 的 各 种 活动 的 路 径 强调 了 企业 的 DSS 需求 。 设 计 和 建立 数据 仓 
库 环境 的 目的 是 为 企业 的 DSS 需求 提供 支持 ， 但 除 DSS 外 ， 企 业 也 有 其 他 方面 的 需求 。 

图 9-6 表 明 ， 企 业 也 有 操作 型 需求 。 另 外 ， 数 据 仓库 处 在 其 他 体系 结构 实体 的 中 心 ， 各 个 
实体 依赖 于 数据 仓库 ， 从 中 获取 数据 。 

如 图 9-6 所 示 ， 其 中 的 操作 型 环境 处 于 一 种 混乱 状态 。 操 作 型 环境 中 有 许多 未 集成 的 数据 ， 
其 中 包含 的 数据 和 系统 都 已 很 老 了 ， 有 很 多 补丁 ， 已 经 无 法 维持 它们 的 运行 了 。 原 先 用 来 逆 
造 该 操作 型 应 用 的 需求 ， 已 经 改变 得 让 人 几乎 无 法 识别 了 。 

前 面 所 讨论 的 迁移 方案 仅仅 适用 于 构造 数据 仓库 。 但 是 ， 在 创建 数据 仓库 的 同时 ， 有 设 
有 可 能 将 操作 型 环境 中 的 某 些 或 者 多 数 混 乱 状况 矫正 过 来 呢 ? 答案 是 ， 在 某 种 程度 上 ， 前 面 
描述 的 迁移 方案 针对 操作 型 环境 所 能 做 的 工作 ， 有 可 能 只 是 做 一 些 比美 化 操作 型 环境 更 少 的 
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重建 工作 。 





SS 
记录 系统 操作 型 环境 


变化 动因 : 
。 系 统 老化 
“技术 老化 
“组 织 上 的 剧变 
“大 幅 改变 了 的 需求 
图 9-6 要 取得 成 功 ,数据 体系 设计 人 员 应 该 等 待 ， 直 到 各 个 变化 动因 变 得 迫切 以 后 ， 
将 与 体系 结构 化 环境 有 关 的 工作 与 合适 的 动因 结合 起 来 i 
有 一个 方法 ， 是 数据 仓库 环境 的 迁移 中 的 一 个 独立 途径 ， 以 数据 模型 为 指导 ， 告 诉 管理 
者 需要 对 操作 型 环境 进行 重大 的 调整 。 但 业界 以 往 的 记录 表明 ， 这 种 方法 并 不 乐观 。 它 所 需 
的 工作 量 、 资 源 的 数量 、 以 及 在 进行 大 量 的 代码 重 写 、 操 作 型 数据 和 系统 重 构 时 对 最 终 用 户 
造成 的 破坏 ， 都 使 得 管理 层 很 少 愿意 花费 所 需 的 资金 和 资源 去 支持 这 种 方法 。 
一 个 更 好 的 方法 是 将 重建 操作 型 系统 的 工作 和 称 为 “变化 动因 ”的 因素 协调 起 来 进行 考 
虐 ， 这 些 变化 动因 有 : 
. 系统 的 老化 。 
. 技术 的 急剧 更 新 。 
“ 组织 上 的 剧变 。 
.巨大 的 业务 变化 。 
面 对 这 些 由 变化 动因 造成 的 影响 ， 管 理 层 毫 无 疑问 需要 做 出 相应 的 变化 。 惟 一 的 问题 是 
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多 快 和 花费 多 少 钱 。 数 据 体系 结构 设计 人 员 将 变化 动因 与 体系 结构 的 概念 结合 起 来 ， 并 以 此 
给 管理 层 提供 充分 的 理由 ， 实 现 操作 型 处 理 环境 的 重建 。 

数据 体系 结构 设计 人 员 采 取 的 重建 操作 型 环境 的 步 又 如 图 9-7 所 示 ， 这 是 建立 数据 仓库 的 
一 项 独立 的 活动 。 


数据 模型 


1. 差异 列表 

该 数据 模型 与 现 有 系统 不 同 之 处 
2. 影响 分 析 

每 一 个 差异 项 目 是 如 何 表明 差别 的 





3. 资源 估计 

“修复 ”差异 项 目的 开销 有 多 大 
4. 给 管理 层 的 报告 

。 要 修复 什么 

。 估 计 需 要 的 资源 数 





图 9-7 创建 操作 型 环境 清理 方案 的 第 一 步 


首先 ， 创 建 一 个 “差别 ”列表 ， 这 个 差别 列表 给 出 了 操作 型 环境 和 数据 模型 所 描述 的 环 
境 之 间 的 差别 的 评估 ， 差 别 列表 是 一 个 简单 的 列表 ， 没 有 很 详细 的 描述 。 

下 一 步 是 影响 分 析 。 在 这 一 步 ， 对 差别 列表 中 的 每 项 可 能 会 造成 的 影响 都 做 出 一 个 评估 。 
有 些 项 造成 的 影响 可 能 会 很 严重 ， 而 其 他 的 一 些 项 对 企业 的 运作 造成 的 影响 几乎 可 以 忽略 
不 计 。 

再 下 一 步 ， 需 要 做 出 资源 估计 。 估 计 的 目的 是 确定 对 这 个 差别 列表 项 进行 “修复 ”所 需 
要 的 资源 的 数量 。 

最 后 ， 将 所 有 以 上 的 这 些 内容 做 成 一 个 报告 ， 提 交 给 信息 系统 管理 层 。 由 管理 层 决 定 哪些 
工作 需要 进行 、 以 什么 步 幅 开展 ， 等 等 。 做 出 什么 样 的 决定 取决 于 企业 需要 优先 考虑 的 事情 。 


9.4 方法 和 迁移 


构造 数据 仓库 的 方法 称 为 螺旋 式 开 发 方法 。 螺 旋 式 开发 的 一 个 很 好 的 实例 是 由 J. D. Welch 
创建 的 ， 并 且 被 Ascential 公 司 作为 “迭代 ”出 售 。 实 际 上 ， 该 方法 的 适用 范围 相当 大 它 不 仅 
包含 如 何 建立 数据 仓库 的 信息 ， 还 描述 了 应 该 如 何 使 用 数据 仓库 。 

曙 旋 式 开发 方法 在 几 个 方面 与 迁移 路 径 有 所 不 同 。 迁 移 路 径 动 态 地 描述 了 总 体 工 作 步 又 ， 
而 螺旋 式 方法 则 讨论 详细 工作 步 又、 这 些 工 作 的 结果 以 及 这 些 工作 的 次 序 。 但 并 没有 描述 创 
建 数据 仓库 的 循环 往复 的 动态 过 程 。 换 名 话说， 迁移 方案 从 三 个 角度 描述 了 一 个 概要 的 方案 ， 
:而 螺旋 式 方 法 则 从 一 个 角度 描述 了 一 个 详细 的 方案 。 两 者 结合 在 一 起 形成 了 一 个 完整 的 对 创 
建 数据 仓库 所 需 工作 的 描述 。 
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9.5 数据 驱动 的 开发 方法 


开发 工作 通常 需要 方法 。 毕 竞 ， 开 发 方法 给 开发 者 指引 了 一 条 合理 的 道路 ， 指 出 需要 做 
些 什么 、 按 照 什 么 次 序 做 、 整 个 工作 需要 多 长 时 间 。 虽 然 方法 这 个 概念 本 身 很 有 吸引 力 ， 但 
业界 的 记录 并 不 令 人 满意 。 在 董事 会 上 ,许多 方法 (数据 仓库 或 其 他 技术 ) 非常 受 欢迎 ,但 
在 使 用 中 又 往往 令 人 失望 。 

为 什么 这 些 方 法 会 让 人 失望 呢 ? 原因 很 多 : 

。 这些 方法 通常 给 出 一 个 单调 的 、 线 性 的 工作 流 。 实 际 上 ， 几 乎 任何 方法 都 需要 循环 反复 

执行 。 换 句 话说， 执行 二 三 步 以 后 ， 停 止 ， 再 全 部 或 部 分 重复 前 面 的 步 又 ， 完 全 是 止 党 

的 。 通 常 ， 这 些 方法 本 身 并 没有 意识 到 有 必要 重复 一 个 或 多 个 步 又 。 对 于 数据 仓库 而 言 ， 

这 种 不 支持 反复 工作 的 缺点 会 使 这 种 方法 成 为 一 个 大 问题 。 

. 通常 ， 这 些 方法 给 出 了 一 些 出 现 或 仅 出 现 一 次 的 工作 。 确 实 ， 有 些 工作 内需 做 一 次 ( 当 

然 得 成 功 ) 就 行 了 。 而 有 些 工作 在 不 同 的 情况 下 需要 反复 地 做 多 遍 (在 这 里 指 的 情况 不 

同 于 求 精算 法 的 迭代 步 又 那 种 情况 ). 

。 通 常 ， 这 些 方法 规定 好 了 一 组 需要 做 的 工作 。 在 许多 情况 下 ,其 中 有 些 根本 就 用 不 着 做 ， 

而 有 些 需 要 做 的 工作 却 没有 在 方法 中 列 出 来 ， 如 此 等 等 。 

。 这 些 方法 经 常 说 明 该 如 何 做 ， 而 不 是 需要 做 什么 。 在 描述 如 何 做 的 时 候 ， 这 些 方法 在 碰 

到 细节 和 特殊 情况 时 ， 有 效 性 就 成 了 问题 。 

。 这 些 方法 对 要 开发 的 系统 的 规模 不 加 区 分 。 有 些 系统 很 小 ， 严 格 的 方法 此 时 没什么 意 

义 ; 有 些 系 统 或 许 正好 与 方法 相 适应 ;而 有 些 系统 非常 大 ， 它 们 的 规模 和 复杂 性 使 某 些 

方法 根本 就 不 起 作用 。 

。 这 些 方法 经 常 将 项 目 管理 问题 与 需要 做 的 设计 开发 工作 混为一谈 。 通 常情 况 下 ， 应 该 将 

项 目 管理 问题 与 开发 方法 的 相关 问题 分 开 考 虑 。 

“ 这些 方法 经 常 对 操作 型 处 理 和 DSS 处 理 不 加 区 分 。 操 作 型 处 理 和 DSS 处 理 的 系统 开发 生 

命 周期 在 许多 方面 是 正好 相反 的 。 要 取得 成 功 ， 一 个 方法 必须 区 分 操作 型 和 DSS 的 处 理 

和 开发 。 

“在 出 现 失败 的 情况 下 ， 这 些 方法 一 般 都 没有 检查 点 和 停止 处 “如 果 前 面 一 个 步骤 没有 

正确 执行 的 话 ， 下 一 步 该 怎么 办 昵 ?”， 这 些 方法 不 具备 此 类 内 容 。 

“这 些 方法 常常 是 作为 解决 方案 ， 而 不 是 作为 工具 出 售 。 当 这 些 方法 当 作 解 决 方案 来 出 售 

时 ， 不 可 避免 地 ， 其 他 一 些 好 的 判定 和 常识 就 可 能 会 被 这 种 方案 所 替代 ， 这 总 是 错误 的 。 

。 这 些 方法 总 能 提交 出 非常 多 的 论文 ， 却 鲜 有 设计 工作 。 设 计 和 开发 工作 的 地 位 被 论文 不 

合理 地 取代 了 。 

这 些 方法 可 能 相当 复杂 ， 需 要 预计 到 每 个 曾经 发 生 过 的 可 能 性 。 尽 管 有 这 些 缺 点 ， 对 这 
些 方 法 的 需求 仍然 存在 。 一 个 适用 于 数据 驱动 环境 的 通用 方法 在 螺旋 式 开发 方法 中 由 J. D 
Welch 给 予 描述 。 该 方法 充分 考虑 到 了 这 些 方法 的 缺陷 和 以 往 的 记录 。 以 概要 方式 给 出 的 这 种 
数据 驱动 方法 ， 很 大 程度 上 要 归功 于 研究 这 种 方法 的 先驱 者 。 为 此 ， 要 得 到 关于 方法 中 所 讨 
论 的 错综复杂 的 内 容 和 技术 的 更 充分 的 阐述 的 话 ， 请 参考 本 书后 所 列 出 的 “参考 文献 ”资源 。 

数据 驱动 方法 一 个 突出 的 方面 就 是 ， 它 建立 在 先前 工作 的 基础 之 上 ， 用 原先 已 开发 的 代 
码 和 处 理 。 基 于 原 有 工作 之 上 的 开发 要 获得 成 功 ， 惟 一 的 途径 就 是 要 找 出 共同 性 。 在 开发 者 
输入 第 一 行 代码 或 设计 第 一 个 数据 库 之 前 ， 应 该 知道 哪些 已 经 存在 ， 对 开发 过 程 的 影响 如 何 。 
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必须 保持 清醒 的 头脑 ， 利 用 已 有 的 东西 ， 不 做 重复 工作 。 这 就 是 基于 数据 驱动 的 开发 的 一 个 
基本 要 素 。 

数据 仓库 环境 是 按照 反复 开发 方法 建立 起 来 的 。 在 这 种 方法 中 ， 先 建立 系统 的 一 小 部 分 ， 
然后 再 建 另 一 小 部 分 ， 这 样 一 直下 去 。 开 发 过 程 按照 相同 的 路 径 反 复 进 行 ， 使 得 这 种 方法 看 
上 去 总 是 在 重复 自身 似 的 。 这 种 不 变 的 反复 过 程 称 为 螺旋 式 开发 。 

螺旋 式 开 发 过 程 不 同 于 传统 的 、 可 以 称 为 瀑 市 式 的 方法 。 在 瀑布 式 方法 中 ， 只 有 一 个 活 
动 完成 以 后 ， 下 一 个 活动 才能 开始 ， 一 个 活动 的 结果 作为 下 一 活动 的 输入 。 需 求 收集 工作 要 
在 分 析 和 综合 开始 以 前 完成 。 分 析 和 综合 在 设计 开始 前 必须 做 完 。 分 析 和 综合 得 到 的 结果 作 
为 设计 过 程 的 输入 ， 等 等 。 瀑 布 式 方法 导致 的 最 终结 果 是 ， 做 每 一 步 都 需要 大 量 的 时 间 ， 这 
样 使 得 开发 过 程 只 能 在 极其 缓慢 的 速度 中 进行 。 

图 9-8 给 出 了 瀑布 式 方法 和 螺旋 式 方法 的 区 别 。 


-~ 


一 一 
ea 





~ 


mY 





一 种 典型 的 瀑布 式 开发 方法 


— 
一 
一 种 选 代 或 称 为 “螺旋 ” 式 的 开发 方法 
图 9-8 开发 方法 间 在 高 层 上 的 区 别 
因为 螺旋 式 开 发 过 程 是 由 数据 模型 驱动 的 ， 所 以 常 称 为 数据 驱动 。 
9.5.1 概念 


为 什么 把 一 个 方法 称 作 是 数据 驱动 的 呢 ? 数据 驱动 的 方法 与 其 他 方法 有 什么 区 别 ? 数据 
驱动 的 方法 起 码 有 两 个 显著 的 特点 。 

数据 驱动 的 方法 不 是 按照 一 个 应 用 接 一 个 应 用 的 方法 去 开发 系统 ， 而 是 把 原先 已 建立 好 
的 代码 和 数据 作为 新 代码 和 数据 的 基础 ， 而 不 是 新 老 并 立 。 要 利用 前 面 的 成 果 ， 就 必须 找 出 
数据 和 处 理 的 共性 。 一 且 找 出 共性 ， 已 有 的 数据 就 可 以 作为 基础 ， 若 不 存在 任何 数据 ， 则 需 
建立 新 的 数据 ， 而 这 些 新 建立 的 数据 或 许 又 可 以 作为 以 后 应 用 的 基础 。 找 出 共性 的 关键 就 是 
数据 模型 。 

必须 强调 的 是 ， 数 据 应 集中 存放 ， 形 成 数据 仓库 ， 作 为 DSS 处 理 的 基础 ， 要 考虑 到 ，DSS 
处 理 与 操作 型 系统 相 比 ， 其 开发 生命 周期 大 不 相同 。 


9.5.2 系统 开发 生命 周期 


操作 型 系统 和 DSS 系统 的 开发 生命 周期 之 间 的 深刻 区 别 ， 从 根本 上 体现 了 数据 驱动 开发 
方法 的 特点 。 操 作 型 系统 的 开发 生命 周期 特点 是 ， 开 始 于 需求 ， 结 束 于 代码 ; 而 DSS 处 理 的 
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开发 生命 周期 的 特点 则 是 开始 于 数据 ， 而 结束 于 需求 。 
9.5.3 智者 观点 


在 某 种 程度 上 ， 有 关 方 法 的 最 好 例子 是 童子 军 的 荣誉 微 章 体制 。 该 荣誉 微 章 体制 用 来 衡 
量 队员 们 什么 时 候 应 该 晋升 一 个 等 级 。 这 个 体制 既 应 用 于 住 在 乡村 也 用 于 住 在 城市 的 孩子 ， 
不 管 是 喜欢 体育 的 还 是 爱 学 习 的 ， 也 不 论 地 域 如 何 。 简 而 言 之 ， 这 种 某 誉 徽章 体制 是 一 种 统 
一 的 、 用 于 衡量 成 就 的 、 经 受 了 时 间 考 验 的 方法 。 

荣誉 徽章 体制 有 什么 秘密 可 言 吗 ? 如 果 有 ， 那 就 是 ， 荣誉 徽章 体制 并 不 规定 任何 一 种 工 
作 该 如 何 完成 ， 而 是 只 说 明 该 做 些 什么 事情 ， 以 及 给 出 一 些 衡量 成 就 的 不 同 参数 “该 怎么 做 ” 
这 个 问题 则 贸 给 童子 军 们 自己 思考 。 

J. D. Welch 提 出 的 螺旋 式 开 发 方法 近似 于 荣誉 徽章 体制 观点 ， 其 中 描述 了 需要 达到 的 各 个 
目标 ， 以 及 各 个 工作 的 次 序 。 读 如 何 得 到 所 需 的 结果 或 目标 ， 则 完全 留 给 了 开发 者 。 


9.6 小 结 


本 章 探讨 了 一 种 迁移 方案 和 一 种 方法 ( 即 J. D. Welch 提 出 的 螺旋 式 开发 方法 )。 该 迁移 方 
案 讨 论 了 将 数据 从 现 有 系统 环境 中 转移 到 数据 仓库 环境 中 时 存在 的 相关 问题 。 另 外 ， 也 讨论 
了 操作 型 环境 该 如 何 组 织 的 问题 。 

数据 仓库 是 以 迭代 的 方式 建立 起 来 的 ， 一 开始 就 完成 数据 仓库 主要 部 分 的 建立 和 载 入 是 
错误 和 的， 因为 最 终 用 户 是 在 “发 现 模 式 ” 下 工作 。 在 最 终 用 户 看 到 数据 仓库 所 能 提供 的 东西 
之 前 ， 无 法 预知 他 们 真正 需要 的 东西 。 

一 般 ， 数 据 集成 和 转换 的 过 程 需要 花费 约 80% 的 开发 资源 。 最 近 几 年 ，ETL 软 件 能 自动 实 
现 历 史 数 据 与 数据 仓库 间 的 接口 的 开发 过 程 。 

数据 仓库 设计 的 起 点 是 企业 数据 模型 ， 数 据 模型 明确 了 企业 的 主要 主题 域 。 根 据 数据 模 
型 ， 需 要 建立 低 一 层 的 “中 间 层 模型 "。 企 业 数据 模型 和 中 间 层 模型 构成 数据 库 设计 的 基础 。 
当 企业 全 局 数据 模型 和 中 间 层 模型 建立 好 以 后 ， 需 要 考虑 一 些 因素 ， 如 数据 的 取 值 个 数 、 数 
据 的 使 用 率 、 数 据 的 使 用 模式 ， 等 等 。 

数据 仓库 环境 的 开发 方法 称 为 迭代 式 开发 方法 ， 或 者 螺旋 式 开 发 方法 。 螺 旋 式 开发 方法 
与 传统 的 瀑布 式 开发 方法 具有 本 质 的 差别 。 

本 章 还 讨论 了 一 种 通用 的 、 数 据 驱动 的 方法 。 这 种 通用 方法 分 为 三 个 阶段 ， 操作 型 阶段 、 
数据 仓库 构造 阶段 和 数据 仓库 迭代 使 用 阶段 。 

数据 体系 结 # 构 设计 人 员 和 最 终 用 户 之 间 的 反馈 循环 是 数据 迁移 过 程 中 的 一 一 个 重要 部 分 。 
一 旦 第 一 部 分 数据 装载 到 数据 仓库 中 以 后 ， 体 系 结构 设计 人 员 必 须 仔细 聆 听 最 终 用 户 的 要 求 ， 
对 已 经 载 入 的 数据 做 出 相应 的 调整 。 这 意味 着 数据 仓库 可 能 处 于 持续 的 修补 过 程 中 。 在 开发 
过 程 的 早期 阶段 ， 对 数据 仓库 的 修补 是 值得 考虑 的 ， 但 是 ， 随 着 时 间 的 流逝 ， 当 数据 仓库 稳 
定 以 后 ， 修 补 工作 将 会 减少 。 
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(美国 金融 界 ) 看 成 是 新 经 济 的 基础 ，Web 技 术 得 到 了 商业 人 士 和 技术 人 员 的 广泛 支持 。 尽 管 
最 初 看 起 来 不 明显 ， 企 业 组 织 的 网 站 与 数据 仓库 之 间 实 际 上 有 着 非常 紧密 的 联系 。 的 确 ， 数 
据 仓 库 为 基于 Web 的 电子 商务 环境 的 成 功 运作 提供 了 坚实 的 基础 。 

Web 环 境 是 由 企业 拥有 并 管理 着 。 虽 然 有 些 Web 环 境 的 数据 来 源 于 企业 外 ， 但 在 大 多 数 情 
况 下 ，Web 不 仅 是 企业 信息 系统 的 普通 的 组 成 部 分 ， 而 且 常 常用 作 商 务 系统 的 集成 的 核心 。 
(注意 : 如 果 Web 环 境 的 数据 来 源 于 企业 外 ， 捕 捉 、 获 取 以 及 将 Web 数 据 同 企业 运作 集成 在 一 
起 的 工作 就 会 困难 得 多 。) 

Web 环 境 与 企业 系统 进行 交互 有 两 种 基本 方式 。 当 Web 环 境 产 生 了 一 个 需要 执行 的 交易 
(如 一 个 客户 的 订单 ) 时 ， 就 产生 一 次 交互 。 交 易 的 数据 转换 为 标准 格式 并 装 入 企业 系统 中 ， 所 
有 订单 都 以 同样 的 方式 进行 处 理 。 从 这 个 意义 上 说 ，Web 仅 仅 是 商务 交易 的 另外 一 个 来 源 。 

但 是 ，Web 环 境 与 企业 系统 的 交互 还 有 另外 一 种 方式 一 一 通过 使 用 日 志 ， 收 集 Web 上 用 户 
的 活动 信息 。 图 10-1 显 示 了 在 日 志 中 捕获 和 存放 Web 活 动 信息 。 








图 10-1 Web 环 境 的 活动 存放 在 Web 日 志 中 称 为 点 击 流 的 记录 中 


Web 日 志 中 包含 了 通常 称 为 点 击 流 的 数据 。 每 当 因特网 用 户 进行 点 击 而 转向 另 一 个 网 络 
地 址 时 ， 就 产生 一 个 点 击 访 记录 。 当 用 户 在 浏览 公司 的 不 同 产品 时 ， 同 时 也 会 生成 二 条 有 关 
用 户 浏览 了 哪些 产品 、 购 买 了 哪些 产品 以 及 用 户 对 购买 未 身 的 看 法 的 记录 。 同样 重要 的 是 ， 
也 可 以 据 此 确定 因特网 用 户 没 看 什么 、 没 买 什么 。 一句 话 ,点击 流 数 据 是 了 解 互 联网 用 户 心 
理 倾向 的 关键 。 通 过 理解 互联 网 用 户 的 心理 倾向 ， 商 业 分 析 员 就 能 够 用 一 种 比 以 往 准 确 得 多 、 
深刻 得 多 的 方式 ， 非 常 直接 地 理解 产品 、 广 告 和 推销 活动 是 如 何 被 大 众 接受 的 ' 

然而 ，Web 环 境 与 企业 系统 之 间 的 这 种 作用 巨大 的 交互 所 需要 的 技术 并 不 简单 。 理解 来 
源 于 Web 环 境 中 的 数据 有 时 是 很 困难 的 。 例 如 ，Web 产 生 的 是 细节 程度 非常 低 的 数据 二 一 事实 
上 ， 它 们 太 详细 了 ， 既 不 能 用 于 分 析 也 不 能 装 和 数据 仓库 。 要 使 点 击 流 数 据 可 用 于 分 析 和 能 
够 进入 数据 仓库 ， 就 必须 对 油 志 数据 进行 读 取 和 提炼 。 

图 10-2 表 明 ，Web 日 志 中 的 点 击 流 数据 在 进入 数据 仓库 环境 之 前 ， 要 经 过 一 个 称 为 粒度 管 
理 器 (GM) 的 软件 处 理 。 


184 务 10 章 





图 10-2 数据 在 进入 数据 仓库 之 前 经 过 粒度 管理 器 


粒度 管理 器 执行 许多 处 理 ， 它 读 入 点 击 流 数据 并 做 如 下 工作 : 

* 清除 无 关 数 据 。 

。 根 据 多 个 相关 的 点 击 流 日 志 记 录 生 成 一 条 记录 。 

。 清 除 错误 数据 。 

* 对 在 Web 环 境 中 独一无二 的 数据 ， 尤 其 是 那些 需要 用 于 同 其 他 企业 数据 进行 集成 的 关键 

数据 进行 转换 。 

“对 数据 进行 汇总 。 

。 对 数据 进行 聚集 。 

根据 经 验 ， 大 约 90% 的 原始 点 击 流 数 据 被 粒度 管理 器 抛弃 或 进行 了 汇总 。 一 旦 点 击 流 数 
据 通过 粒度 管理 器 进入 了 数据 仓库 ， 就 可 以 被 集成 到 企业 处 理 的 主流 中 去 。 

总 之 ， 将 数据 从 Web 转 移 到 数据 仓库 涉及 以 下 这 些 步骤 : 

1) Web 数 据 收集 到 日 志 中 。 

2) 日 志 数据 在 通过 粒度 管理 器 时 进行 处 理 。 

3) 粒度 管理 器 将 提炼 后 的 数据 传递 给 数据 仓库 。 

将 数据 传递 回 Web 环 境 的 方式 并 不 是 直接 的 。 简 单 地 说 ， 数 据 并 不 是 直接 从 数据 仓库 直 
接 传递 回 Web 环 境 。 为 了 理解 为 什么 对 数据 仓库 数据 不 能 非常 直接 地 存 取 ， 首 先 要 理解 为 什 
么 Web 环 境 需要 数据 仓库 的 数据 。 

Web 环 境 需 要 这 种 类 型 的 数据 ， 是 因为 企业 数据 是 在 数据 仓库 中 集成 的 。 例 如 ， 假 定 有 
一 个 Web 网 站 用 于 卖 服装 。 假 定 商业 分 析 员 认为 ， 如 果 能 使 买 服装 的 顾客 不 仅仅 购买 服装 ， 
也 购买 他 们 销售 的 其 他 商品 ， 如 园 世 工具、 运动 器 械 、 旅 行 用 具 和 人 造 珠宝 等 ， 那 肯定 是 一 
个 很 不 错 的 主意 。 分 析 员 可 能 决定 要 为 漂亮 的 妇女 裙 装 和 高 档 服 装 珠宝 展开 一 个 特别 促销 活 
动 。 但 是 ， 分 析 员 会 到 哪里 去 找 有 关 哪 些 女 顾 客 在 过 去 购买 过 服装 珠宝 的 信息 呢 ? 很 自然 地 
会 去 数据 仓库 找 ， 因 为 那里 有 顾客 的 历史 信息 。 

再 举 一 个 例子 。 假 定 某 网 站 用 于 销售 轿车 。 分 析 员 确 确实 实 想 知道 谁 购买 过 公司 所 卖 的 
那 种 牌子 的 轿车 。 在 哪里 能 够 找到 这 种 历史 信息 ? 当然 是 在 数据 仓库 中 。 

数据 仓库 为 商业 分 析 员 进行 分 析 提 供 了 一 个 集成 的 历史 信息 的 数据 基础 。 数 据 仓库 和 
Web 间 的 这 种 紧密 联系 如 图 10-3 所 示 。 

图 10-3 表 示 ， 数 据 从 数据 仓库 中 传送 到 企业 的 操作 型 数据 存储 (ODS) 中 ， 可 以 通过 Web 
直接 访问 。 将 ODS 放 在 数据 仓库 和 Web 之 间 初 看 上 去 似乎 很 别扭 ， 然 而 ， 这 么 做 是 很 有 道理 的 。 

ODS 是 一 个 混合 结构 体 ， 既 具有 数据 仓库 的 某 些 特征 ， 又 兼 具 操作 型 系统 的 一 些 特征 。 
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一 方面 ，ODS 包 含 了 集成 数据 ， 能 支持 决策 支持 系统 的 处 理 。 另 一 方面 ，ODS 又 支持 高 性 能 
的 事务 处 理 。 对 Web 来 说 ， 后 一 个 特点 使 得 ODS 具有 很 高 的 价值 。 
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图 10-3 数据 在 进入 Web 前 经 过 ODS 


当 一 个 Web 站 点 在 ODS 上 进行 数据 存 取 时 ，Web 环 境 知道 ， 它 可 以 在 毫秒 级 的 时 间 内 得 到 
一 个 响应 。 这 种 高 速 的 响应 时 间 使 Web 有 可 能 进行 真正 的 事务 处 理工 作 。 而 如 果 Web 直 接 在 数 
据 仓 库 中 存 取 数 据 ， 数 据 仓库 的 响应 时 间 则 可 能 长 达 几 分 钟 。 由 于 在 互联 网 中 ， 用 户 对 响应 
时 间 极 为 敏感 ， 因 此 ，Web 直 接 在 数据 仓库 中 存 取 数 据 是 无 法 令 用 户 接受 的 。 很 明显 ， 数 据 
仓库 设计 时 并 没有 考虑 为 在 线 响 应 时 间 提 供 支持 。 然 而 ，ODS 是 为 这 个 目的 而 设计 的 。 因 此 ， 
如 图 10-4 所 示 ，Web 环 境 的 直接 输入 方 是 ODS 。 


SS 
NS 
SO 





Web 环 境 


图 10-4 ODS 提 供 快速 的 响应 时 间 
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最 初 看 来 ， 数 据 仓库 和 ODS 之 间 存在 很 多 宛 余 数据 。 毕 竟 ，ODS 中 的 数据 都 是 从 数据 仓 
库 中 导出 的 。 注 意 ， 这 里 讨论 的 ODS 是 第 IV 类 ODS。 对 其 他 种 类 ODS 的 完整 描述 ， 请 参考 我 
的 《建造 操作 型 数据 存储 》， 第 二 版 (Wiley, 1999 ) 。 

然而 ， 在 数据 仓库 和 ODS 之 间 实 际 上 只 存在 很 少 的 数据 重 倒 。 数 据 仓库 包含 详细 的 事务 
数据 ， 而 ODS 包 含 的 数据 可 以 称 为 “概要 ”数据 。 为 了 理解 概要 数据 和 详细 的 事务 数据 之 间 
的 区 别 ， 可 以 考虑 一 下 图 10-5 中 的 数据 。 





概要 数据 8 月 13 昌 使用 用 户 名 csmal 于 好， 停食 13 分 名 
上 一 次 操作 时 间 
12 月 13 日 人 
Ne 8 月 15 日 使 用 用 户 名 csmall 登 录 ， 停留 26 分 钟 
-查看 比基尼 泳装 
-水 一 购买 蓝 色 游泳 套装 
i -查看 草 相 ， 
DR 2 看 太阳 
< 8 月 15 旧 全 用 用 汪 色 csmall 登 录 ， 停 留 1 分 名 
地 点 和 一 查看 Rayban 牌 包 边 太阳 镜 
A 8 月 21 日 使 用 用 户 名 csmall 登 录 ， 停留 12 分 钟 
巴哈马 群岛 - 计 丰 闪 由 
一 才 头 加 
网 = 8 月 221 日 信用 用 户 各 csrmall 谷 录 ， 停留 24 分 钟 
NS -订购 去 忆 0 马 本 的 机 票 


一 Victoria's Secret 
一 GAP 


图 10-5 ODS 和 数据 仓库 拥有 不 同 的 数据 


数据 仓库 中 包含 了 有 关 顾 客 和 企业 之 间 过 去 交易 的 各 种 事务 数据 。 详 细 的 事务 数据 中 包 
括 以 下 信息 : 

。 查 找 男 式 自行 车 。 

。 查 找 女 式 红色 游泳 衣 。 

。 购 买 女 式 蓝 色 游 泳衣 。 

。 查 找 Ray-Ban 牌 包 边 太阳 镜 。 

数据 仓库 中 按 顾 客 存放 着 顾客 同 企业 的 交互 事务 信息 的 详细 日 志 ， Se 
发 生地 点 。 交 互 可 能 发 生 在 Web 上 ， 或 通过 分 类 订单 ， 或 通过 零售 店 ， 等 等 。 一 般 ， 
生 的 时 间 、 地 点 以 及 交易 的 性 质 都 记录 在 数据 仓库 中 。 

另外 ， 数 据 仓 库 包 含 历史 数据 。 只 要 商业 分 析 员 认为 有 必要 ， 数 据 仓 库 中 可 以 存放 很 久 
以 前 的 交易 数据 一 一 一 年 ， 两 年 ， 或 其 他 任何 有 意义 的 时 间 内 。 这 种 集成 的 历史 数据 包含 原 
始 的 、 未 经 解释 的 事务 数据 。 

另 一 方面 ，ODS 中 存放 的 都 是 解释 性 数据 。 从 数据 仓库 中 读 取出 来 的 数据 ， 经 分 析 后 转 
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换 为 “概要 ”数据 或 概要 记录 。 概 要 记录 存放 在 ODS 中 。 图 10-6 表 明 ， 读 取 数 据 仓库 中 所 有 
历史 的 、 集 成 的 数据 以 后 ， 以 此 为 基础 创建 一 个 概要 记录 。 作 为 读 取 和 解释 事务 数据 的 结果 ， 
这 个 概要 记录 包括 所 有 类 型 的 信息 。 例 如 ， 对 于 图 10-6 中 的 顾客 ， 概 要 记录 表明 该 顾客 具有 
以 下 所 有 特征 : 

。 喜爱 海滩 ， 爱 好 冲浪 、 日 光 浴 和 潜水 。 

。 喜 欢 到 巴哈马 、 夏 威 夷 、 牙 买 加 之 类 的 地 方 旅行 

。 单 身 。 

。 高 档 店 的 顾客 ， 经 常 去 的 店 有 Nordstrom、Victoria's Secret 和 Gap 。 


a 停留 13 分 钟 
上 一 次 操作 时 间 


风 13 日 最 二 
es 151 日 人 有 有 canalg 停留 26 分 钟 
所 -到 
= -所 
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品味 
一 比基尼 
一 太阳 镜 全 二 停留 1 分 钟 
地 点 一 查看 Rayban 牌 包 边 太阳 镜 
一 巴哈马 群岛 人 有用 Pieanal 基 | 停留 12 分 钟 
一 夏威夷 析 
-牙买加 分 
SN 3 和 
如 常 雹 颜 放 商店 2 全 用 用 请 snai 停留 24 分 钟 
一 Nordstorms 一 订购 去 巴哈马 群岛 的 机 要 
— Victoria’s Secret 一 给 某 人 送 花 


-GAP 
图 10-6 详细 历史 数据 被 定期 读 出 、 分 析 ， 并 以 所 要 求 的 格式 装 入 ODS 


换 名 话说， 该 顾客 有 可 能 拥有 图 10-6 概 要 记录 中 表明 的 各 种 倾向 和 嗜好 。 注 意 ， 该 顾客 
可 能 从 没 去 过 夏威夷 。 然 而 ， 我 们 可 以 预测 出 该 顾客 想 去 那里 。 

为 了 由 事务 数据 创建 概要 数据 ， 必 须 做 一 定量 的 分 析 工 作 。 图 10-6 表 明 读 取 事 务 数据 以 
产生 概要 数据 的 过 程 。 

在 图 10-6 中 ， 详 细 的 集成 历史 事务 数据 被 读 取 和 分 析 ， 以 生成 概要 记录 。 分 析 的 进行 是 
周期 性 的 ， 取 决 于 数据 的 变化 率 和 分 析 的 商业 目的 。 分 析 的 频率 及 其 后 对 概要 记录 的 更 新 可 
能 是 一 天 一 次 ， 也 可 能 是 一 年 一 次 。 分 析 频 率 的 差别 很 大 。 

分 析 程 序 是 解释 性 和 预测 性 的 。 根 据 顾客 过 去 的 行为 以 及 分 析 程 序 所 能 得 到 的 其 他 信息 ， 
分 析 程 序 对 信息 进行 吸收 ， 并 以 此 为 该 顾客 生成 一 个 非常 个 性 化 的 推测 。 这 个 推测 中 的 信息 
既 包 含 事实 ， 又 包含 推断 。 某 些 事实 信息 是 标准 的 : 

。 上 一 次 同 该 顾客 交易 的 时 间 。 

。 上 一 次 交易 的 性 质 。 

“上 一 次 购买 的 金额 数 。 - 

其 他 信息 并 不 是 事实 。 分 析 的 推断 性 方面 包含 以 下 信息 : 
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。 顾 客 是 否 属于 高 消费 阶层 。 

。 顾客 的 性 别 。 

。 顾 客 的 年 龄 。 

。 顾 客 是 否 经 常 旅行 。 

。 顾 客 旅行 的 可 能 目的 地 。 

概要 记录 从 而 包含 了 有 关 该 顾客 的 概要 描述 ， 而 这 些 在 ODS 中 可 以 立刻 获取 。 同 时 ， 
ODS 提供 给 Web 环 境 良好 的 响应 时 间 和 一 个 对 所 服务 顾客 的 数据 库 的 集成 的 、 解 释 性 的 视图 。 

当然 ， 除 顾客 信息 以 外 的 其 他 信息 也 可 以 在 数据 仓库 和 ODS 中 获取 到 。 一 般 ， 像 供应 商 
信息 、 产 品 信息 、 销 售 信息 这 类 信息 也 可 以 提供 给 Web 分 析 员 。 

利用 数据 仓库 环境 支持 Web 不 仅 表现 在 提高 响应 时 间 和 数据 的 预 分 析 上 。 另 一 关键 作用 
在 于 管理 大 量 的 数据 。 

Web 处 理 过 程 产生 大 量 的 信息 。 即 使 使 用 了 粒度 管理 器 并 得 到 了 最 有 效 地 利用 ，Web 网 站 
产生 出 的 数据 还 是 会 堆积 如 山 。 

许多 Web 设 计 者 会 产生 一 种 最 初 的 冲动 ， 想 直接 在 Web 环 境 中 存储 Web 数 据 。 但 Web 很 快 
就 会 被 数据 的 汪洋 大 海 所 淹没 , 而且 一 旦 发 生 这 种 情况 ,一切 工 作 都 无 法 正常 进行 。 数 据 在 
每 一 个 地 方 都 变 得 混乱 一 一 访问 查询 、 装 载 数据 、 索 引 、 监 控 器 和 其 他 任何 地 方 。 数 据 仓库 
本 身 以 及 数据 仓库 的 海量 存储 设备 能 够 用 来 帮助 Web 解 决 这 个 问题 。 图 10-7 表 明 ， 数 据 周期 性 
地 从 Web 环 境 中 脱离 出 来 进入 数据 仓库 ， 然 后 数据 周期 性 地 从 数据 仓库 中 脱离 出 来 进入 海量 
存储 环境 。 


若干 兆 或 十 亿 字 节 ; 


[| 于 | 一 若 下 小 时 的 数 所 
千 亿 字 节 ; 


人 各。 万 亿 甚 至 千 万 亿 字 节 
他 作 。 几 年 其 至 儿 十 年 的 数据 


图 10-7 数据 从 Web 涌 入 数据 仓库 进而 涌 入 海量 存储 设备 


粒度 管理 器 负责 从 Web 向 数据 仓库 中 装载 数据 ， 数 据 装载 的 周期 是 以 天 甚至 小 时 来 计 的 ， 
这 取决 于 Web 上 的 平均 数据 流量 。 数 据 仓库 中 的 数据 以 每 月 或 每 季度 为 周期 装载 到 海量 存储 
设备 。 通 过 这 种 处 理 方式 ， 体 系 结构 中 的 每 一 级 都 不 会 有 多 到 不 可 管理 的 数据 。 

通常 ，Web 环 境 可 能 保存 一 天 的 数据 ， 数 据 仓 库 可 能 保存 一 年 的 数据 ， 而 海量 存储 设备 
则 可 能 存 有 长 达 十 年 的 数据 。 数 据 仓 库 还 可 以 向 Web 环 境 提供 数据 集成 的 支持 。 图 10-8 表 明 ， 
普通 的 操作 型 系统 向 数据 仓库 提供 数据 ， 在 那里 可 以 进行 集成 处 理 。 数 据 从 粒度 管理 器 出 来 ， 
与 数据 仓库 中 已 经 集成 过 的 业务 数据 合并 在 一 起 。 通 过 这 种 处 理 方式 ， 数 据 仓库 成 为 唯一 的 
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数据 源 ， 在 这 里 ， 能 够 得 到 对 于 源 自 Web、 其 他 系统 和 任何 地 方 的 所 有 商业 数据 的 一 个 集成 
的 视图 。 





图 10-8 Web 数 据 在 数据 仓库 中 与 企业 的 其 他 数据 进行 集成 
数据 仓库 的 另 一 个 重要 特点 是 它 具 有 支持 多 个 Web 网 站 的 能 力 。 对 于 一 个 大 企业 来 说 ， 
拥有 多 个 网 站 是 很 常见 的 ， 对 所 有 网 站 的 数据 进行 合并 和 集成 的 支持 也 是 必要 的 。 
10.1 支持 电子 商务 环境 


数据 仓库 所 支持 的 最 后 一 个 环境 是 基于 Web 的 电子 商务 环境 。 图 10-9 展 示 了 数据 仓库 对 
Web 环 境 的 支持 。 





图 10-9 数据 仓库 可 以 为 多 个 电子 商务 环境 服务 
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Web 环 境 同 数据 仓库 间 的 接口 既 简 单 又 复杂 。 数据 总 是 在 数据 仓库 和 Web 环 境 间 来 回 移动 ， 
从 这 个 角度 来 说 ， 它 是 简单 的 。 但 因为 这 种 移动 又 不 是 直接 的 ， 所 以 它 又 是 复杂 的 。 


10.2 将 数据 从 Web 移 动 到 数据 仓库 


在 Web 环 境 中 收集 到 的 数据 是 细节 程度 非常 非常 低 的 数据 一 这样 的 低 细 节 级 不 能 用 于 
数据 仓库 。 因 此 ， 当 数据 从 Web 环 境 传递 到 数据 仓库 时 ， 必 须 对 它们 进行 加 工 处 理 ， 并 提高 
它们 的 粒度 级 别 。Web 环 境 中 的 数据 在 数据 仓库 使 用 之 前 所 做 的 处 理工 作 如 下 : 

* 清除 无 关 数 据 。 

“ 聚集 同类 数据 。 

* 对 数据 进行 重新 排序 。 

。 编辑 数据 。 

* 清理 数据 。 

* 对 数据 进行 转换 。 

简 而 言 之 ， 基 于 Web 的 数据 在 适 于 进入 数据 仓库 之 前 要 经 过 严格 的 清理 /转换 / 约 简 处 理 。 

基于 Web 的 数据 通常 由 Web 环 境 创建 的 Web 日 志 生 成 。 根 据 经 验 ， 在 对 Web 数 据 进 行 约 简 
时 ， 出 现 的 数据 大 约 有 90% 会 被 约 简 掉 。 

来 自 Web 的 数据 经 过 一 个 通常 称 为 粒度 管理 器 的 软件 处 理 后 进入 数据 仓库 。 粒 度 管理 器 
在 许多 方面 与 ETL 软 件 相 类 似 〈(ETL 软 件 用 于 将 数据 从 传统 环境 传递 到 数据 仓库 中 )。 

进入 到 Web 环 境 的 数据 主要 来 自发 生 在 Web 环 境 中 的 点 击 流 处 理 。 点 击 流 处 理 能 够 很 好 地 
描述 基于 Web 的 用 户 交 易 。 然 而 ， 要 让 点 击 流 数 据 真 正 有 用 ， 就 必须 将 它 和 在 普通 的 企业 系 
统 中 的 其 他 主流 数据 结合 在 一 起 。 只 有 当 点 击 流 数 据 被 提炼 和 合并 到 普通 的 企业 数据 中 以 后 ， 
Web 数 据 才能 发 挥 它 的 全 部 作用 。 


10.3 将 数据 从 数据 仓库 移动 到 Web 


Web 环 境 对 响应 时 间 非 常 敏 感 ; 当 需 要 信息 时 ， 它 的 等 待 时 间 不 能 超过 1、2 个 训 秒 。 如 
果 Web 环 境 必 须 等 更 长 的 时 间 ， 其 性 能 就 会 受 影响 。Web 环 境 在 许多 方面 都 同 OLTP 环 境 非常 
相似 ， 至 少 在 响应 时 间 的 敏感 性 上 是 如 此 。 由 于 这 些 原 因 ， 数 据 仓库 和 Web 环 境 间 设 有 直接 
的 接口 。 

取而代之 的 是 ， 这 两 种 环境 的 接口 是 与 数据 仓库 处 于 同一 个 环境 的 企业 ODS。ODS 可 以 
实现 毫秒 级 的 响应 时 间 ， 而 数据 仓库 则 不 能 。 于 是 ， 数 据 从 数据 仓库 传递 到 ODS。 一 旦 来 到 
ODS 中 ， 数 据 就 可 以 响应 来 自 Web 环 境 的 数据 存 取 请 求 。 这 样 Web 环 境 在 请 求 数据 时 ， 可 以 非 
常 快 捷 和 一 致 地 得 到 所 需 的 数据 。 

数据 仓库 中 存放 的 是 详细 的 历史 信息 ， 而 ODS 与 此 不 同 ， 它 存放 的 是 概要 数据 。 此 外 ， 
ODS 包含 有 真正 的 企业 范围 的 信息 。 

数据 一 旦 从 ODS 进入 Web 环 境 ， 就 能 以 多 种 方式 使 用 这 些 数据 。 这 些 数 据 能 够 用 来 构造 
Web 环 境 给 用 户 设 定 的 个 性 化 对 话 或 直接 用 于 对 话 。 简 而 言 之 ，Web 的 设计 者 可 以 以 他 的 创造 
性 随意 调配 、 使 用 从 ODS/ 数 据 仓 库 中 来 的 数据 。 


10.4 对 Web 的 支持 
数据 仓库 究竟 给 基于 Web 的 电子 商务 环境 提供 了 什么 呢 ? 数据 仓库 提供 了 以 下 几 项 重要 
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功能 : 
。 容 纳 巨 量 数据 的 能 力 。 一 旦 数据 仓库 拥有 了 海量 存储 机 制 (如 海量 备份 存储 / 近 线 存储 
机 制 )， 而 且 Web 数 据 经 过 粒度 管理 器 处 理 以 后 ， 数 据 仓库 就 拥有 了 处 理 无 限量 数据 的 
能 力 。 数 据 可 以 迅速 地 从 Web 环 境 移 到 数据 仓库 。 这 样 ，Web 环 境 产生 的 数据 的 量 就 不 
再 是 Web 环 境 的 性 能 或 可 用 性 的 一 个 障碍 。 
。 存 取 集 成 数据 的 能 力 。Web 数 据 本 身 并 没有 多 大 用 处 。 但 是 Web 生 成 的 数据 一 旦 同 其 他 
的 企业 数据 结合 在 一 起 ， 就 会 产生 巨大 的 作用 。 进 入 数据 仓库 的 Web 数 据 是 可 以 集成 的 ， 
一 旦 被 集成 ， 就 会 产生 非常 有 用 的 信息 。 
。 提 供 优 良性 能 的 能 力 。 由 于 Web 在 ODS 而 不 是 数据 仓库 中 存 取 数据 ， 因 此 能 够 从 中 获得 
优良 的 运行 性 能 。 
这 些 就 是 数据 仓库 提供 给 基于 Web 的 电子 商务 环境 的 重要 特点 。 数 据 仓 库 为 Web 提 供 了 其 
成 功 所 必需 的 重要 后 台 基 础 。 


10.5 小 结 


我 们 看 到 ， 数 据 仓 库 用 多 种 方式 为 Web 环 境 提供 支持 。 数 据 从 Web 环 境 向 数据 仓库 转移 的 
接口 是 相当 简单 的 。 通 过 日 志 来 获取 Web 数 据 。 日 志 将 其 获取 的 点 击 流 信息 传送 给 粒度 管理 
器 。 粒 度 管理 器 对 数据 进行 编辑 、 过 滤 、 汇 总 和 重组 。 数 据 经 过 粒度 管理 器 进入 数据 仓库 。 

数据 从 数据 仓库 向 Web 环 境 转移 的 接口 较为 复杂 。 数据 从 数据 仓库 进入 ODS。 在 ODS 中 
生成 概要 记录 。 数 据 从 数据 仓库 向 Web 环 境 进行 转移 时 ，ODS 是 数据 仓库 和 Web 环 境 之 间 的 惟 
一 联系 。 原 因 很 简单 : ODS 能 够 确保 联机 事务 始终 能 够 迅速 、 一 致 地 处 理 ， 而 这 对 一 个 高 效 
的 Web 处 理 来 说 是 必需 的 。 

此 外 ， 数 据 仓 库 为 Web 环 境 中 大 量 的 数据 提供 了 存储 的 场所 。 

数据 仓库 还 提供 了 一 个 中 心 点 ， 在 这 里 ， 企 业 数 据 可 以 同 来 自 一 个 或 多 个 Web 站 点 的 数 
据 汇 合 和 集成 ， 形 成 一 个 单一 的 共同 数据 源 。 


第 11 章 ， 非 结构 化 数据 和 数据 仓库 


近年 来 ， 同 时 兴起 了 两 个 领域 一 一 非 结构 化 数据 领域 及 其 相关 过 程 和 结构 化 数据 领域 及 
其 相关 过 程 。 遗 憾 的 是 这 两 个 领域 之 间 的 重叠 很 少 ， 因 为 一 旦 在 这 两 个 领域 之 间 建 立 接口 ， 
就 会 出 现 商 业 机 会 过 剩 的 问题 。 

非 结构 化 数据 领域 是 指 那些 临时 的 ， 非 正式 的 活动 占 优势 的 情况 ， 例 如 出 现在 PC 机 和 
Internet 网 上 的 数据 。 以 下 是 非 结 构 化 数据 的 基本 数据 形式 : 

。 电 子 邮 件 

。 电 子 数据 表 

。 文 本 文件 

。 文 档 

。PDF 文 件 

。PPT 文 件 

图 11-1 给 出 了 一 个 非 结 构 化 数据 领域 。 

与 非 结构 化 数据 相反 的 是 结构 化 数据 。 典 型 的 结构 
化 数据 有 标准 DBMS、 报 告 、 索 引 、 数 据 库 、 域 、 记 录 
等 等 。 图 11-2 描 述 了 一 个 结构 化 领域 。 





图 11-1 一 个 非 结构 化 数据 领域 


序号 描述 数量 日 期 二 代理 商 ， U/m 





图 11-2 结构 化 数据 


由 于 非 结 构 化 环境 实际 上 不 存在 格式 、 记 录 和 关键 字 ， 所 以 可 以 适当 地 命名 。 人 们 上 网 
并 可 以 在 没有 任何 人 的 指导 下 表达 他 们 的 想法 。 人 们 也 可 以 在 没有 任何 人 的 说 明 下 创建 和 修 
改 电子 数据 表 。 人 们 可 以 写 令 自己 满意 的 报告 和 备忘录 。 总 之 ， 在 非 结构 化 环境 里 无 论 什么 
都 是 非 结构 化 的 。 此 外 ， 在 非 结 构 化 环境 里 有 很 多 数据 称 作 “废话 ”(blather)。 废 话 是 一 些 
简单 通信 和 没有 商业 往来 或 用 途 的 信息 。 当 一 个 人 在 给 他 的 朋友 的 电子 邮件 中 写 “ 让 我 们 一 
起 吃饭 ” ， 从 这 条 信息 里 收集 不 到 任何 商务 信息 。 

非 结 构 化 数据 大 致 分 为 两 类 一 一 通信 和 文档 。 通 信 相 对 较 短 且 分 布 有 限 ， 而 且 趋 向 于 一 
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个 较 短 的 生命 周期 。 文 档 则 是 面向 更 广大 的 读者 ， 并 且 比 通信 要 大 很 多 。 文 档 的 生命 周期 也 
要 比 通信 长 很 多 。 通 信和 文档 的 基本 形式 都 是 文本 。 因 此 ， 文 本 就 成 为 了 非 结 构 化 环境 的 最 
基本 形式 。 

结构 化 数据 领域 是 受 数字 支配 的 。 结 构 化 数据 领域 包含 关键 字 、 域 、 记 录 、 数 据 库 等 。 
结构 化 系统 具有 高 度 次 序 化 的 特点 。 在 几乎 每 种 情况 下 ， 结 构 化 系统 都 是 作为 交易 的 副产品 
被 创建 的 。 例 如 ， 用 户 办 理 银 行 取款 ， 乘 客 预定 航空 机 位 ， 人 们 购买 保险 ， 公 司 获得 一 个 订 
单 等 等 。 以 上 这 些 交 易 都 会 产生 一 条 或 多 条 结构 化 记录 。 :每 条 记录 都 包含 一 个 关键 字 或 一 些 
关于 交易 信息 的 标识 符 以 及 与 这 个 交易 有 关联 的 数字 〈 如 取款 数 ， 机 票 的 价钱 ， 保 险 的 期 限 ， 
订单 的 总 数 和 价格 等 ) 。 

图 11-3 显 示 了 结构 化 数据 与 非 结构 化 数据 的 主要 区 别 。 


序号 ”描述 数量 日 期 代理 商 U/m 
RR WN gr 





“文本 数字 
。 通信 。 交 易 


图 11-3 结构 化 数据 与 非 结 构 化 数据 之 间 的 一 些 基本 区 别 


11.1 两 个 领域 的 集成 


通过 结构 化 数据 与 非 结构 化 数据 的 结合 ， 引 进 一 个 全 新 的 领域 也 是 有 可 能 的 。 例 如 ， 考 
虑 客户 关系 管理 (CMR ) 的 情况 。CMR 能 够 自由 地 从 结构 化 领域 收集 到 人 口 统计 数据 ， 例 如 
客户 的 年 龄 、 客 户 的 性 别 、 客 户 的 教育 情况 、 客 户 的 住址 等 。CMR 所 缺少 的 是 通信 。 通 过 非 
结构 化 领域 ， 能 够 实现 添加 客户 发 出 和 接收 的 电子 邮件 ， 以 及 其 他 通信 信息 等 等 。 但 是 要 对 
非 结构 化 数据 和 结构 化 数据 这 两 个 领域 进行 匹配 却 是 一 个 困难 的 任务 。 

这 种 匹配 困难 可 以 想象 成 匹配 不 同形 式 的 电流 一 一 交流 电 (AC) 和 直流 电 (DC)。 非 结 
构 化 数据 以 AC 方 式 操 作 , 结构 化 数据 以 DC 方式 操作 。 如 果 用 在 AC 的 应 用 或 工具 用 到 DC 系统 ， 
很 明显 应 用 或 工具 都 不 会 正常 运作 。 或 许 还 会 引起 火灾 。 简 单 地 说 ， 在 AC 系 统 中 能 正常 工作 
的 事物 改 用 DC 系统 就 不 能 正常 工作 了 ， 反 之 亦 然 。 对 于 大 部 分 情况 来 说 ， 将 这 两 个 领域 匹配 
仅仅 是 基本 层 上 的 匹配 不 当 。 


11.1.1 文本 一 一 公共 联接 


那么 ， 匹 配 这 两 个 领域 需要 什么 呢 ? 在 这 两 个 领域 之 间 的 公共 联接 是 文本 。 没 有 文本 ， 
要 形成 联接 是 不 可 能 的 。 即 使 有 了 文本 ， 一 个 联接 包含 的 也 可 能 全 是 误导 信息 。 

假设 尝试 在 两 个 领域 的 文本 间 进 行 原始 匹配 ， 图 11-4 显 示 了 这 个 匹配 。 

如 果 只 进行 基于 文本 的 两 个 领域 间 的 原始 匹配 ， 大 量 的 问题 会 出 现 ， 包 括 : 

。 拼 错 一 一 如 果 在 两 个 环境 中 发 现 两 个 这 样 的 单词 Chernobyl 和 Chernobile 怎 么 办 ?在 这 两 

个 领域 间 应 该 存在 一 个 匹配 吗 ? 这 两 个 单词 指 的 是 一 个 事物 还 是 不 同 的 事物 ? 
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。 上 下 文 一 一 如 果 术 语 “bill” 在 两 个 领域 都 出 现 了 。 它们 应 该 匹配 吗 ? 一 种 情况 下 ， 它 
的 意思 是 鸟 嘴 ， 而 另外 一 种 情况 下 ， 它 可 能 表示 一 个 人 欠 的 钱 数 。 

。 同 名 一 一 相同 的 名 字 “Bob Smith” 出 现在 两 个 领域 里 。 在 说 同一 件 事 吗 ? 是 指 同一 个 
人 吗 ? 或 许 提 及 的 完全 是 两 个 不 同 的 人 ， 只 是 碰巧 名 字 相同 而 已 。 

。 昵 称 一 一 在 一 个 领域 ， 出 现 的 名 字 是 “Bill Inmon”。 在 另 一 个 领域 出 现 的 是 “William 
Inmon”。 应 该 进行 匹配 吗 ? 它们 指 的 是 同一 个 人 吗 ? 

。 缩 写 一 一 1245 Sharps Ct 和 1245 Sharps Court 相 同 吗 ? NY, NY 和 New York，New York 
一 样 吗 ? 

。 不 完整 的 名 字 一 一 Mrs.Inmon 和 Lynn Inmon 相 同 吗 ? 

。 词 干 一 “moving” 应 该 和 “moved” 关 联 并 进行 匹配 吗 ? 





图 11-4 仅仅 匹配 两 个 环境 中 的 一 些 词语 是 随机 的 、 混 乱 的 


当 对 两 个 环境 的 文本 进行 随机 匹配 时 ， 就 像 发 生 假 阳 性 和 假 阴 性 出 错 一 样 ， 儿 平 没有 相 
对 有 效 的 匹配 。 

在 两 个 独立 的 环境 间 进 行 匹配 是 有 风险 的 ， 有 很 多 原因 可 以 说 明 。 图 11-5 表 明 其 中 的 一 
个 原因 。 





图 11.5 如 何 才能 知道 在 一 个 环境 中 的 Bob Smith 和 另 二 环境 中 的 Bob Smith 是 同一 个 人 ? 
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11.1.2 基本 错误 匹配 


从 语法 上 看 两 个 环境 之 间 存 在 很 多 差别 ， 匹 配 两 个 环境 的 原始 数据 总 是 充满 了 误导 结论 ， 
也 许 产 生 这 个 问题 的 最 主要 的 原因 是 在 两 个 领域 的 环境 之 闻 存 在 着 基本 的 错误 匹配 。 非 结构 
化 环境 以 文档 和 通信 为 表现 形式 ， 而 结构 化 环境 则 是 以 事务 处 理 为 表现 形式 。 

在 结构 化 环境 中 ， 能 够 获取 到 最 小 化 的 文本 数据 。 在 事务 处 理 环境 中 ,文本 数据 只 是 用 
来 确定 和 阐明 事务 。 再 多 的 文本 只 会 阻碍 事务 处 理 环 境 中 的 数据 交流 线 。 在 非 结构 化 环境 中 ， 
只 存在 文本 形式 。 文 本 可 以 是 元 长 的 ， 含 义 模糊 的 ， 意 义 深 刻 的 ， 也 可 以 是 混乱 的 。 

在 不 同 环境 里 找到 和 存储 的 文本 很 大 程度 上 影响 文本 的 内 容 、 用 法 和 类 型 ， 反 过 来 也 很 
大 程度 地 影响 在 不 同 环 境 的 文本 间 进 行 有 意义 的 匹配 的 能 力 。 

尽管 在 不 同 环境 间 进 行文 本 匹配 是 很 困难 的 ， 但 它 仍然 是 数据 仓库 环境 中 的 数据 集成 和 
非 结 构 化 数据 (或 来 自 非 结构 化 源 的 数据 ) 布局 的 关键 。 


11.1.3 环境 间 文 本 匹配 


那么 ， 怎 样 在 两 个 环境 间 进 行文 本 匹配 昵 ? 怎样 将 数据 从 非 结 构 化 数据 源 中 有 意义 地 抽 
取 到 数据 仓库 环境 中 呢 ? 存在 很 多 有 意义 的 匹配 方式 。 

为 了 使 匹配 有 意义 ， 非 结构 化 数据 必须 先进 行 基本 的 编辑 。 第 一 类 编辑 是 将 那些 无 关 紧 
要 的 停顿 词 删除 。 停 上 顿 词 是 指 经 常 出 现 但 对 文档 来 说 无 意义 的 一 些 词 语 。 下 面 是 一 些 典型 的 
停顿 词 : 

。 3 

。 an 

。the 

。for 

®to 

。 by from 

* when 

* which 

° that 

。 where 

对 单词 “the” 进 行 索引 是 上 毫 无 意义 的 。 很 显然 ， 它 是 没 用 的 。 

必须 做 的 第 二 类 编辑 是 将 单词 约 简 成 词 干 。 例 如 ， 下 面 这 些 单词 都 具有 相同 的 语法 词 干 : 

。 moving 

es moved 

» MOvVes 

* mover 

* removing 

上 而 的 每 个 单词 都 具有 相同 的 词根 “move”。 如 果 要 进行 有 意义 的 单词 比较 ， 在 词 干 这 一 
级 上 进行 比较 是 最 佳 的 。 


11.1.4 概率 匹配 
在 两 个 环境 间 进 行 有 意义 的 匹配 的 一 种 方法 是 通过 匹配 过 程 中 的 相关 数据 。 例如， 考虑 


196 务 有 7 间 


在 非 结 构 化 环境 和 结构 化 环境 间 对 名 字 “Bob Smith” 进 行 匹配 。 “Bob Smith” 是 一 个 普通 的 
美国 人 名 并 在 很 多 电话 号 籍 里 出 现 。 那 么 ， 怎 样 在 两 个 “Bob Smith” 间 匹配 呢 ? 换 句 话说 ， 
怎么 确定 在 一 个 地 方 出 现 的 “Bob Smith” 和 其 他 地 方 出 现 的 是 同一 个 人 呢 ? 

进行 确定 的 基本 方法 是 创建 一 种 叫做 概率 匹配 的 方法 。 在 一 个 概率 匹配 中 ， 搜 集 尽 可 能 
多 的 数据 用 来 说 明 你 正在 寻找 的 “Bob Smith”， 这 些 数 据 也 是 与 其 他 地 方 出 现 的 “Bob Smith” 
的 类 似 数据 进行 匹配 的 基础 。 然 后 ， 根 据 所 有 重合 部 分 的 数据 确定 对 名 字 的 匹配 是 否 有 效 。 
图 11-6 给 出 了 这 样 一 种 匹配 。 
Bob Smith 
名 字 






Bob Smith 





图 11-6 从 每 个 环境 搜集 可 能 有 用 的 数据 


图 11-6 表 明 在 非 结构 化 环境 里 ， 其 他 类 型 的 信息 与 名 字 “Bob Smith” 一 起 收集 。 特 别 地 ， 
Bob 的 社会 保险 号 和 职工 号 与 他 的 名 字 一 起 搜集 和 保存 。 而 在 结构 化 环境 里 ， 除 了 名 字 其 他 信 
息 也 搜集 。 在 这 种 情况 下 ，Bob 的 地 址 、 电 话 号 码 、 职 工 号 也 被 搜集 到 。 


11.1.5 匹配 所 有 信息 


现在 形成 了 两 个 信息 集 。 在 非 结 构 化 环境 里 ， 有 了 名 字 、 社 会 保险 号 和 职工 号 。 在 结构 
化 环境 里 ， 知 道 了 名 字 、 地 址 、 电 话 号 码 和 职工 号 。 幸 运 的 是 ， 除 了 名 字 外 还 有 其 他 相 重 又 
的 部 分 。 数 据 单元 职工 号 在 两 个 环境 中 都 出 现 了 。 当 进行 名 字 匹 配 时 一 定 也 要 进行 职工 号 匹 
配 ， 这 样 才 能 确定 是 否 为 同一 个 人 。 这 是 概率 匹配 的 一 种 简单 形式 。 

概率 匹配 在 最 好 的 情况 下 也 不 是 完美 的 。 概 率 匹 配 基于 匹配 的 强度 形成 一 个 匹配 的 概率 。 
例如 ， 在 两 个 只 知道 名 字 为 Bob Smith 的 人 之 间 的 匹配 就 是 一 个 弱 匹 配 。 对 两 个 都 叫 Bob 
Smith 并 且 都 居住 在 科罗拉多 州 的 人 的 匹配 稍 强 一 点 。 对 于 两 个 名 叫 Bob Smith 并 且 都 居住 在 
科罗拉多 州 威 斯 敏 斯 特区 的 人 的 匹配 就 更 强 一 些 。 而 对 两 个 名 叫 Bob Smith 并 且 都 居住 在 科 罗 
拉 多 州 的 威 斯 敏 斯 特区 朱 尼 泊 埠 第 18 号 的 人 的 匹配 就 更 强 了 。 但 是 只 对 地 址 进行 匹配 并 不 完 
美 。 或 许 事实 上 ， 在 同一 地 址 就 住 着 两 个 叫 Bob Smith 和 Bob Smith, Junior 的 人 ， 在 儿子 的 名 
字 里 可 能 不 含 “Junior”。 

一 种 使 概率 匹配 强度 形象 化 的 方法 是 用 数字 1 到 10 来 描述 匹配 。 例 如 ， 包 含 名 字 的 匹配 是 
1。 包 含 名 字 和 州 的 匹配 是 2。 包 含 名 字 、 州 、 城 市 的 匹配 将 是 3。 和 包含 名 字 、 州 、 城 市 和 地 址 
的 匹配 将 是 4， 以 此 类 推 。 匹配 变 量 越 多 ， 匹 配 值 就 越 大 。 通 过 使 用 数字 等 级 ， 分 析 员 就 可 以 
很 容易 地 知道 匹配 强度 了 。 

图 11-7 表 示 为 描述 概率 匹配 中 有 用 的 数据 而 创建 的 一 种 索引 。 
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图 11-7 概率 匹配 是 在 两 个 环境 间 处 理 集成 的 一 种 方法 


11.2 主题 匹配 


在 结构 化 和 非 结构 化 环境 间 的 文本 匹配 不 仅仅 只 有 概率 匹配 一 种 方法 。 在 两 个 环境 间 创 
建 匹配 或 至 少 一 种 文本 关系 的 另 一 种 方法 称 作 数据 的 “产业 识别 ”分 组 或 主题 。 

假设 现 有 一 段 非 结 构 化 文本 的 主体 。 这 个 文本 可 以 是 从 多 种 文档 搜集 到 一 起 形成 的 一 个 
库 ， 也 可 以 是 通信 的 集合 ， 如 从 多 种 数据 源 随时 得 到 的 电子 邮件 。 无 论 怎样 ， 都 会 搜集 到 大 
量 的 非 结构 化 文本 。 

因此 需要 创建 一 种 方法 来 观察 和 组 织 收集 到 的 这 些 非 结构 化 数据 。 


11.2.1 产业 特征 主题 


组 织 非 结构 化 数据 的 一 种 方法 是 通过 产业 特征 主题 。 在 这 种 方式 里 ， 对 非 结构 化 数据 进 
行 分 析 是 根据 现 有 的 与 产业 主题 有 关 的 词语 进行 的 。 例 如 ， 假 设 有 两 个 产业 特征 主题 一 会 
计 和 人 金融。 产业 特征 主题 会 包含 与 该 主题 有 关 的 词语 。 例 如 ， 会 计 主 题 中 将 包含 如 下 的 
词语 : 

。 应 收 款项 

。 可 支付 的 

。 库 存 现金 

。 资 产 

。 借 出 

。 到 期 日 

。 账 户 

金融 主题 则 包含 如 下 信息 : 

。 价 格 

。 和 从 余 

。 扣 上 息 

。 销 售 总 额 

" 净 销 售 
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“利率 
“ 借贷 转 结 

* 贷方 余额 

可 以 搜集 到 很 多 表示 产业 特征 主题 的 词语 。 一 些 主题 词语 可 能 如 下 : 
“销售 

“行销 

“金融 

.人力 资源 

“工程 学 

“会 计 学 

.分布 

如 图 11-8 所 示 ， 产 业 特征 主题 用 作 非 结构 化 环境 组 织 数据 的 基础 。 





图 11-8 组 织 信息 库 的 一 种 方法 是 将 数据 划分 成 产业 特征 分 组 并 在 非 结构 化 环境 中 定位 这 些 词语 


搜集 到 产业 特征 主题 ， 根 据 主 题 逐 一 与 非 结 构 化 数据 作对 比 。 当 发 现 有 单词 或 词根 在 非 
结构 化 环境 中 存在 ， 就 加 以 标识 。 分 析 结 束 后 ， 就 能 够 将 非 结 构 化 文档 与 分 析 过 的 主题 的 符 
合 程 度 计算 出 来 了 。 

在 进行 非 结 构 化 文本 与 产业 特征 主题 对 比 时 ， 允 许 组 织 文档 。 与 会 计 内 容 有 很 强 相关 的 
文档 集会 与 产业 特征 主题 的 词汇 表 产 生 很 多 “命中 ”项 。 而 与 会 计 关 联 很 小 的 文档 在 与 会 计 
产业 特征 主题 里 出 现 的 词汇 进行 匹配 时 ， 很 少 或 几乎 没有 命中 项 。 

产业 特征 主题 不 仅 对 于 确定 非 结 构 化 环境 里 出 现 的 数据 内 容 是 有 用 的 ， 产 业 特 征 主题 和 
非 结 构 化 数据 之 间 的 匹配 对 于 准确 确定 涉及 的 数据 在 非 结 构 化 环境 中 的 位 置 也 是 很 有 益 的 。 

这 种 方法 的 一 个 商业 用 途 是 用 来 确定 哪 种 通信 符合 法 规 ， 如 Sarbanes Oxley，HIPAA 和 
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BASEL II。 通 信里 的 词语 逐个 与 Sarbanes Oxley，HIPAA 和 BASEL II 中 的 重点 词语 进行 比较 ， 
一 旦 发 现 ， 则 生成 匹配 ， 同 时 主管 也 就 知道 需要 了 解 那些 正在 生成 的 通信 。 

11.2.2 自然 事件 主题 


另 一 种 组 织 非 结构 化 数据 的 方法 是 通过 自然 事件 主题 方式 。 图 11-9 表 示 了 这 一 组 织 形 式 。 
在 “自然 ”主题 组 织 方式 中 ， 非 结构 化 数据 是 基于 逐 篇 文档 收集 而 来 的 。 数 据 收集 起 来 
后 ， 将 词语 根据 出 现 次 数 进行 等 级 划分 。 然 后 ， 根 据 这 个 等 级 形成 文档 的 主题 。 


主题 





图 11-9 组 织 信息 库 的 另 一 种 方法 是 根据 文档 的 信息 来 确定 主题 信息 


例如 ， 假 设 某 个 文档 包含 如 下 已 经 分 级 的 词语 ; 

。 火 一 一 296 次 

。 消防 员 一 一 285 次 

。 水 龙 带 一 一 277 次 

。 救 火车 一 一 201 次 

。 警 报 一 一 199 次 

。 烟 一 一 175 次 

。 热 一 一 128 次 

能 够 推测 出 的 结论 是 文档 的 主题 与 火灾 或 救火 有 关 。 

假设 文档 中 还 包括 如 下 词语 : 

。Rock Springs， 怀 俄 明 州 一 一 2 次 

。 雪 花石 襄 一 一 1 次 

。 天 使 一 一 2 次 

。Rio Grande 六 

* 海 狸 坝 一 一 1 次 

由 于 这 些 词语 出 现 的 次 数 很 少 ， 可 以 推测 出 文档 的 主题 与 雪花 石膏 或 天 使 关联 很 小 或 者 
根本 无 关 。 

由 止 看 出 ， 可 以 通过 查看 词语 出 现 的 次 数 和 频率 来 建立 文档 的 主题 。 
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11.2.3 通过 主题 和 主题 词 关 联 


如 图 11-10 所 示 ， 可 以 通过 文档 主题 形成 的 数据 与 结构 化 环境 建立 联接 。 

在 非 结构 化 环境 中 的 主题 数据 与 结构 化 环境 中 的 数据 建立 联系 的 一 种 方法 是 通过 数据 原 
始 匹配 。 在 数据 的 原始 匹配 中 ， 如 果 在 结构 化 环境 中 任何 地 方 发 现 一 个 词语 是 文档 主题 的 一 
部 分 ， 那 么 非 结 构 化 文档 就 会 与 结构 化 记录 关联 起 来 。 但 是 这 种 匹配 意义 不 大 ， 而 且 事实 上 
容易 产生 误导 。 





图 11-10 信息 库 与 结构 化 数据 的 关联 可 以 通过 库 的 主题 或 产业 特征 关系 实现 


11.2.4 通过 抽象 和 元 数据 关联 


此 外 ， 还 有 一 种 建立 两 个 环境 间 联 接 的 方法 ， 就 是 通过 结构 化 环境 中 出 现 的 元 数据 。 下 
面 通过 图 11-11 中 出 现 的 数据 来 看 是 如 何 建 立 这 种 联接 的 。 


| i 
Bill Jones 
元 数据 Mary Adaiis 
Susan Young 


Wayne Folmer 


数据 的 出 现 次 数 
图 11-11 在 结构 化 环境 中 公用 的 数据 结构 是 元 数据 和 数据 的 出 现 次 数 
在 图 11-11 中 ， 非 结构 化 环境 数据 包括 如 下 人 名 Bill Jones, Mary Adams，Wayie Folmer 
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和 Susan Young。 所 有 这 些 人 的 名 字 都 在 数据 记录 中 叫做 “名 字 ” 的 数据 项 中 存放 。 
换 句 话说 ， 数 据 在 结构 化 环境 中 以 两 种 形式 存在 一 一 抽象 形式 和 实际 存在 形式 。 图 11-12 
显示 了 这 种 数据 关系 。 





图 11-12 结构 化 数据 与 非 结 构 化 数据 关联 的 一 个 方法 是 通过 元 数据 与 主题 或 产业 特征 关系 关联 


在 图 11-12 中 ， 数 据 是 以 抽象 形式 存在 一 一 即 元 数据 。 此 外 ， 数 据 还 以 实际 存在 形式 存 
在 一 一 数据 实际 出 现 的 位 置 。 

在 关系 集 的 基础 上 ， 非 结构 化 环境 中 的 基于 主题 的 数据 能 与 结构 化 环境 中 的 抽象 数据 产 
生 最 佳 关 联 。 情 况 不 同 的 是 ， 在 结构 化 环境 中 实际 存在 的 数据 要 与 非 结 构 化 环境 数据 关联 却 
不 是 很 容易 。 


11.3 两 层 数 据 仓库 


在 数据 仓库 环境 中 存在 两 种 使 用 非 结构 化 数据 的 基本 方法 。 一 种 方法 是 访问 非 结构 化 环 
境 ， 然 后 将 数据 迁移 到 结构 化 环境 里 。 这 种 方法 对 一 些 非 结构 化 数据 是 很 有 效 的 。 使 用 非 结 
构 化 数据 与 数据 仓库 环境 的 另 一 种 方法 是 创建 一 个 “两 层 数据 仓库 ”， 

其 中 的 一 层 对 应 非 结 构 化 数据 ， 而 男 一 层 对 应 结构 化 数据 。 图 11-13 表 非 结 构 化 数据 
明了 这 种 方法 。 

如 图 11-13 所 示 ， 数 据 仓库 有 两 个 相关 但 分 开 的 部 分 。 在 这 两 个 环 
境 的 数据 之 间或 许 存 在 着 较 紧密 或 较 偶然 的 关系 ， 也 可 能 毫 无 关系 。 

在 这 方面 没有 关于 数据 的 任何 瞳 示 。 0 

在 非 结构 化 数据 仓库 中 出 现 的 数据 在 很 多 方面 与 结构 化 数据 仓库 
i de ks i WR 

。 数 据 以 低 粒 度 级 存在 。 化 数据 而 另 一 层 是 

“存在 一 个 隶属 于 数据 的 时 间 要 素 。 结构 化 数据 
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“数据 是 在 一 定 主题 范围 或 “主题 ”下 规范 组 织 起 来 的 。 


11.3.1 非 结构 化 数据 仓库 分 类 


在 结构 化 数据 仓库 和 非 结 构 化 数据 仓库 之 间 存 在 几 个 主要 差别 。 非 结构 化 数据 仓库 中 的 


数据 划分 成 以 下 两 类 : 


。 非 结构 化 通信 
。 文 档 和 库 
图 11-14 显 示 了 在 非 结构 化 数据 仓库 里 的 数据 划分 。 


非 结构 化 数据 





结构 化 数据 
图 11-14 非 结构 化 数据 仓库 由 文档 、 库 和 通信 组 成 
非 结 构 化 数据 仓库 中 的 通信 通常 都 很 简短 (相对 于 非 结 构 化 数据 仓库 其 他 部 分 的 文档 )。 


通信 几乎 总 是 包含 通信 日 期 和 在 非 结 构 化 通信 数据 仓库 中 与 数据 相关 联 的 关键 字 。 通信 划分 
成 两 类 ， 与 商业 相关 的 通信 和 “废话 ”( 指 无 商业 价值 的 通信 )。 烘 型 的 废话 有 “让 我 们 一 起 
吃饭 ”或 者 “我 刚 见 了 一 个 最 帅 的 男生 。 他 有 着 棕色 的 眼睛 并 留 着 卷发 。 通常 ， 在 数据 仓库 
里 废话 会 从 通信 中 删除 。 


通信 和 包含 的 关键 字 一 般 如 下 : 

“电子 邮件 地 址 

。 电 话 号 码 

。 传真 号 

通信 与 结构 化 数据 之 间 的 关系 通过 基本 标识 符 形成 。 

在 非 结 构 化 数据 仓库 中 也 会 存在 文档 。 通常 ， 文 档 要 比 通 信 大 得 多 ， 比 通信 面向 更 广泛 


的 读者 。 文 档 与 通信 的 第 三 点 不 同 是 文档 比 通信 的 可 利用 周期 更 长 。 


意 ， 


文档 可 以 分 成 很 多 库 。 一 个 库 仅 是 与 某 个 主题 相关 的 所 有 文档 的 集合 ， 库 的 主题 可 以 任 
例如 : 
。 石 油 天 然 气 账目 
。 了 恐怖 行动 和 抢劫 
。 炸 药 ， 地 雷 和 炮 
。 保 险 单 和 精算 
通信 根据 标识 符 组 织 ， 而 文档 和 库 是 根据 词语 和 主题 进行 组 织 。 主 题 由 已 经 描述 过 的 文 


档 产 生 。 一 旦 主题 确定 ， 文 档 的 主题 和 内 容 就 形成 了 在 数据 仓库 中 存储 的 主体 。 
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11.3.2 非 结 构 化 数据 仓库 中 的 文档 


由 于 有 太 多 的 变量 ， 在 非 结 构 化 数据 仓库 中 存储 实际 文档 或 许 是 必要 的 ， 或 者 只 存储 文 
档 在 数据 仓库 中 的 位 置 更 有 意义 。 下 面 是 一 些 用 来 决定 是 否 需 要 存储 实际 文档 到 数据 仓库 的 
因素 : 

。 文 档 的 数目 

。 文 档 的 大 小 

。 文 档 中 信息 的 重要 程度 

。 文 档 如 果 不 存 储 在 仓库 中 是 否 容易 访问 

。 是 否 能 获取 到 文档 的 一 部 分 

决定 是 否 存储 文档 的 一 种 折 中 的 解决 办 法 是 存储 那些 包含 有 主题 词 的 前 后 句子 。 也 就 是 
说 ， 如 果 将 词语 “ 杀 ”(kill) 用 作 主 题词 。 接 下 来 的 这 些 信息 或 许 会 与 “ 杀 ” 一 起 存储 : 

。“ 期 中 考试 像 一 个 真正 的 杀手 ， 全 班 三 十 人 只 有 两 名 学 生 通过 。” 

。“ 他 真是 一 个 女性 杀手 。 当 他 一 进 房间 ， 女 士 们 就 为 他 倾倒 。” 

。“ 今 年 西北 的 最 佳 四 分 卫 是 Sonny Sixkiller。 他 能 超过 最 快 的 选手 。” 

。 “蚂蚁 发 现 这 种 杀 虫 剂 是 有 效 杀手 。 它 的 效力 能 持续 一 周 。” 

通过 存储 含有 关键 词 前 后 的 文本 ， 实 际 上 不 用 重新 获取 原文 档 就 可 以 预览 文档 了 。 


11.3.3 非 结构 化 数据 可 视 化 


非 结 构 化 数据 一 旦 获取 和 组 织 到 数据 仓库 中 ， 对 非 结 构 化 数据 形象 化 即 成 为 可 能 。 

非 结构 化 形象 与 结构 化 形象 相 类 似 。 结 构 化 形象 认为 是 商业 智能 。 有 很 多 商业 产品 用 来 
.对 结构 化 形象 进行 具体 化 ， 包 括 商业 目标 和 微 策略 。 图 11-15 给 出 了 对 于 不 同 数据 仓库 不 同类 
型 的 形象 化 。 

结构 化 形象 的 实质 是 数字 的 显示 。 数 字 可 以 添加 和 删 减 。 数 字 可 以 形成 条 形 统计 图 表 、 
排列 图 表 和 圆 形 分 格 统计 图 表 。 换 名 话说， 可 以 有 很 多 形式 来 表示 数字 数据 。 


非 结构 化 数据 





结构 化 数据 





图 11-15 不 同 的 形象 化 
形象 化 也 能 够 用 于 基于 文本 的 数据 。 基 于 文本 的 数据 是 形成 非 结构 化 技术 的 基础 。 非 结 
构 化 形象 化 在 商业 上 的 一 个 应 用 是 Compudigm。 为 了 创建 文本 形象 化 ， 需 要 收集 文档 和 词语 。 
这 些 词语 经 过 编辑 后 准备 显示 。 然 后 ， 将 这 些 词 语 提供 给 显示 设备 ， 对 词语 进行 分 析 ， 聚 集 
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并 准备 被 形象 化 。 
11.4 自 组 织 图 (SOM) 


形象 化 的 结果 是 一 张 自 组 织 图 (SOM)。SOM 看 上 去 像 一 张 拓扑 地 图 。SOM 可 以 显示 不 
同 的 词语 和 文档 如 何 聚 集 ， 并 根据 主题 显示 。 


图 11-16 给 出 了 非 结构 化 环境 中 的 形象 化 处 理 。 





图 11-16 一 张 自 组 织 图 (SOM) 


SOM 具 有 很 多 特点 。 特 点 之 一 是 可 以 根据 不 同文 档 中 出 现 的 数据 形成 信息 群 。 在 这 一 特 
点 中 ， 数 据 所 共享 的 特性 、 关 系 等 聚集 到 一 起 。 通 过 观察 信息 群 ， 有 着 相同 特性 和 关系 的 数 
据 被 分 组 以 便于 参考 。SOM 的 另 一 特点 是 它 具有 向 下 钻 取 处 理 能 力 。 在 向 下 钻 取 处 理 中 ， 数 
据 分 层 组 织 ， 这 样 访问 和 分 析 一 层 能 引入 到 下 一 层 。 


图 11-17 表 明 创 建 了 SOM， 数 据 能 进行 更 深入 的 分 析 。 





图 11-17 在 SOM 中 分 析 文 本 
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SOM 的 一 个 重要 的 方面 是 快速 关联 文档 的 能 力 。 分 析 者 一 旦 检测 到 SOM ， 如 果 查 看 文档 ， 
直接 访问 就 可 以 。 

通过 使 用 SOM ， 企 业 能 查看 上 千 个 文档 的 信息 ， 并 能 直观 和 直接 地 检查 数据 及 其 关联 。 
11.4.1 非 结构 化 数据 仓库 


非 结 构 化 数据 仓库 的 结构 到 底 是 怎样 的 ?图 11-18 给 出 了 非 结 构 化 数据 仓库 的 高 级 视图 。 

















此 结 构 化 数据 
二- 一 | 
~ 通信 的 前 n 
个 字 攻 
结构 化 数据 标识 符 一 电话 ，SSN， 职 工 号 ， 地 址 


图 11-18 非 结 构 化 数据 仓库 视图 


在 图 11-18 中 ， 非 结构 化 数据 仓库 划分 成 两 个 基本 的 部 分 ， 文 档 部 分 和 通信 部 分 。 文 档 
部 分 用 在 较 长 的 叙述 中 ， 如 研究 、 科 学 和 工程 等 。 此 外 ， 书 、 文 章 和 报告 也 可 能 在 文档 部 分 
出 现 。 

通信 部 分 用 于 较 短 信息 。 通 信和 包括 电子 邮件 、 和 备忘录、 信和 和 其 他 短信 件 。 

这 两 个 部 分 存储 的 数据 如 下 : 

。 文 档 的 前 4 个 字 节 

。 文 档 自身 (可 选择 的 ) 

。 通 信 自 身 (可 选择 的 ) 

“内 容 信 息 

* 关键 字 信息 


11.4.2 数据 量 和 非 结构 化 数据 仓库 


在 每 种 数据 仓库 中 ， 数 据 量 都 是 个 问题 。 非 结构 化 数据 仓库 也 不 例外 。 幸 运 的 是 ， 数 据 
仓库 开发 者 能 做 一 些 事情 来 减轻 大 量 数据 产生 的 影响 。 尽 管 结构 化 数据 仓库 环境 里 的 大 量 数 
据 是 个 问题 ， 但 非 结 构 化 环境 中 的 数据 量 更 重要 ， 原 因 很 简单 ， 非 结构 化 数据 要 比 结构 化 数 
据 多 得 多 。 

下 面 是 非 结构 化 数据 仓库 中 用 来 减少 数据 量 的 一 些 方法 : 

“ 删除 通信 废话 。 约 达 90 多 的 通信 内 容 是 废话 。 废 话 占 有 空间 ， 对 于 企业 信息 毫 无 用 处 。 

* 不 要 存储 所 有 的 文档 。 只 保存 能 用 来 找到 文档 的 简单 索引 ， 或 者 至 少 保存 文档 的 最 后 地 

址 。 只 保存 重要 的 文档 。 

* 如果 文档 和 通信 要 同时 保存 ， 再 开辟 一 个 区 域 以 保证 文档 或 通信 独立 存储 。 标 识 符 〈 如 

前 n 个 字 节 ， 日 期 等 等 ) 也 要 分 开 存 储 。( 标识 符 将 在 下 一 节 “ 适 用 于 两 个 环境 ”中 详细 

讨论 。) 
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“ 在 任何 可 能 的 地 方 将 年 龄 数据 用 日 期 代替 ， 

“ 监控 正在 使 用 的 非 结 构 化 数据 仓库 ， 确 定 使 用 的 类 型 。 

。 不 要 存储 太 多 的 内 容 。 跟 踪 正 在 使 用 的 内 容 ， 确 定 哪些 删除 、 哪 些 存档 。 
存在 一 些 能 使 非 结构 化 数据 仓库 的 存储 要 求 最 小 化 的 方法 。 


11.5 适用 于 两 个 环境 


对 于 所 有 实际 目标 ， 非 结构 化 环境 包含 着 与 结构 化 环境 不 相 容 的 数据 。 非 结构 化 数据 好 
比 是 交流 电 ， 而 结构 化 数据 是 直流 电 。 这 两 种 电流 很 难 融合 或 者 根本 不 相 容 。 然 而 ， 尽 管 两 
个 环境 间 内 容 上 存在 着 主要 不 同 ， 但 是 仍 有 办 法 将 两 个 环境 相关 联 。 

如 图 11-19 所 示 ， 文 本 将 两 者 关联 起 来 。 的 

图 11-19 表 明 结构 化 环境 由 以 下 几 个 成 分 构成 

在 抽象 层 上 一 一 元 数据 和 库 





.在 记录 层 上 一 一 原始 数据 、 标 识 符 和 紧密 标识 符 pa 

标识 符 用 来 专门 标识 一 条 记录 的 数据 。 典 型 的 标识 i 
符 有 社会 保险 号 ， 职 工 号 和 驾照 号 。 标 识 符 对 它 所 标识 一 和 
的 内 容 是 特定 的 。 一 旦 标识 确定 ， 很 大 程度 上 记录 的 标 。 ”结构 化 数据 一 
识 被 适当 地 确定 。 


紧密 标识 特 是 指 存在 高 概率 的 标识 符 。 紧 密 标识 符 图 1 -19 在 操作 环境 中 的 数据 
包括 名 字 、 地 址 和 其 他 标识 数据 。 标 识 符 和 紧密 标识 符 的 区 别 在 于 确定 性 。 如 果 根 据 社会 保 
险 号 来 确定 一 个 人 ， 那 么 的 确 是 这 个 人 的 概率 很 大 。 但 是 用 紧密 标识 符 未 必 如 此 ， 比 如 名 字 。 

有 一 个 叫 Bil ipmon 的 人 。 那 么 ， 意 味 着 这 个 人 和 本 书 的 作者 是 同一 个 人 吗 ? 答案 是 不 确 
定 的 。 在 全 世界 不 会 有 很 多 叫 Bill Inmon 的 ， 但 也 会 有 一 些 。 所 以 ， 当 提 到 Bill Inmon， 可 能 
谈 及 的 是 本 书 的 作者 ， 也 不 排除 是 其 他 人 。 

缩小 标识 范围 的 可 能 性 ， 假 设 我 们 知道 Bill Inmon 于 1945 年 在 加 利 福 尼 亚 州 的 圣地 亚 哥 出 
生 。 现 在 ， 我 们 是 不 是 知道 在 谈论 谁 呢 》 有 可 能 ， 但 是 仍 有 可 能 有 两 个 叫 Bill Inmon 的 人 于 
1945 年 在 加 利 福 尼 亚 州 的 圣地 亚 哥 出 生 。 所 以 ， 我 们 还 是 不 能 完全 确定 我 们 谈论 的 是 否 正确 。 
我 们 已 经 相当 确定 了 ， 但 还 不 能 完全 确定 。 

当 出 现 概率 此 配 的 时 候 ， 紧 密 标 识 符 为 概率 匹配 中 不 同 的 数据 提供 联接 。 

那么 ， 怎 样 将 结构 化 数据 与 非 结 构 化 数据 关联 起 来 呢 ? 

图 11-20 表 明 结 构 化 环境 和 非 结构 化 环境 中 的 数据 类 型 。 顶 部 是 来 自 结构 化 环境 的 数据 类 
型 ， 底 部 是 来 自 非 结构 化 环境 的 数据 类 型 。 

” 非 结构 化 环境 划分 为 两 个 基本 类 型 ， 文 档 和 通信 。 在 文档 类 别 中 可 以 看 到 文档 标识 信息 
如 题目 、 作 者 、 文 档 数据 和 文档 位 置 。 还 能 看 到 文档 的 前 个 字 节 。 还 有 如 上 下 文 、 前 缀 、 单 
词 、 后 组。 当然 还 有 关键 字 。 关 键 字 有 一 个 简单 的 索引 。 此 外 ， 还 可 以 看 到 关键 字 和 文档 之 
间 的 关系 。 关 键 字 通 过 主题 的 一 部 分 或 产业 识别 列表 里 的 词汇 与 文档 关联 。 

非 结 构 化 数据 的 通信 部 分 除了 包含 标识 符 和 紧密 标识 符 外 与 文档 部 分 很 相似 。 但 除了 这 
个 不 同 点 外 ， 关 于 通信 的 信息 是 相同 的 。 

图 11-20 表 明 结 构 化 环境 中 的 标识 符 能 与 非 结构 化 环境 中 的 标识 符 相 匹配 。 结 构 化 环境 中 
的 紧密 标识 符 与 非 结构 化 环境 的 紧密 标识 符 进 行 匹配 的 概率 也 很 大 。 非 结构 化 环境 中 的 关键 
字 可 以 与 结构 化 环境 中 的 元 数据 或 数据 库 匹配 。 
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图 11-20 不 同 环境 间 的 数据 如 何 关联 


理论 上 其 他 匹配 原则 上 也 能 进行 ， 通 常 这 些 匹 配 实际 上 都 是 随机 (或 在 最 佳 时 间 ， 不 定 
时 的 ) 产生 的 。 


11.6 小 结 


信息 技术 领域 实际 上 划分 成 两 类 一 一 结构 化 数据 和 非 结构 化 数据 。 当 这 两 个 领域 发 生 关 
联 和 集成 的 时 候 ， 会 出 现 很 多 好 的 机 会 。 这 两 个 领域 最 普通 的 联接 是 文本 。 

非 结构 化 环境 中 的 文本 演变 成 两 种 基本 形式 一 一 通信 和 文档 。 结 构 化 领域 中 的 文本 也 演 
变 成 两 种 基本 形式 一 一 抽象 【或 者 元 数据 ) 和 实际 存在 形式 。 

仅仅 匹配 文本 是 随机 的 和 几乎 没有 意义 的 。 在 匹配 文本 过 程 中 存在 很 多 问题 ， 这 些 问 题 
必须 在 匹配 认为 有 用 之 前 解决 。 匹 配 文本 中 出 现 的 一 些 问题 类 似 于 假 阳性 和 假 阴 性 。 

解决 匹配 问题 的 一 种 有 效 方法 是 用 概率 匹配 。 另 一 种 组 织 文档 的 方法 是 用 产业 识别 主题 
进行 排列 。 第 三 种 解决 匹配 的 方法 是 利用 来 自 文档 的 出 现 - 导出 主题 。 

当 一 层 是 非 结 构 化 数据 而 另 一 层 是 结构 化 数据 的 时 候 ， 两 层 数据 仓库 就 形成 了 。 

一 旦 两 层 数 据 仓 库 建 立 起 来 ， 可 以 进行 形象 化 。 商 业 智 能 用 来 形象 化 结构 化 数据 。 而 自 
组 织 图 (SOM ) 用 来 形象 化 非 结构 化 数据 。 

结构 化 环境 和 非 结构 化 环境 可 以 在 标识 符 级 别 上 进行 匹配 ， 也 可 以 使 用 概率 匹配 在 紧密 
标识 符 层 上 匹配 ， 或 在 关键 字 到 元 数据 或 库 级 上 进行 匹配 。 除 此 之 外 ， 其 他 任何 类 型 的 匹配 
都 是 随机 的 。 
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伴随 数据 仓库 而 来 的 是 庞大 的 数据 量 。 为 了 表明 数据 量 随 着 数据 仓库 在 变化 ， 让 我 们 来 
看 看 表示 容量 单位 词语 的 变化 。 在 数据 仓库 出 现 之 前 ， 容 量 是 用 千 字 节 (KB)， 焰 字 节 (MB ) 
来 度量 ， 偶 尔 用 到 千 兆 字 节 (GB)。 但 是 数据 仓库 出 现 后 ， 很 快 地 在 字典 里 就 出 现 了 新 词语 
如 “ 千 亿 字 节 ”， “万 亿 字 节 ”(TB )， 甚 至 “ 千 万 亿 字 节 ”(PB )。 随 着 数据 仓库 的 出 现 ， 数 据 
量 以 多 个 数量 级 的 倍数 递增 。 图 12-1 是 已 经 普遍 出 现 的 增长 。 


J 


6 个 月 50GB 一 1] 
1 年 500GB 
— 1 


2 年 2GB 


3 年 10GB 
图 12-1 随 着 时 间 数 据 仓 库 增长 迅猛 


如 图 12-1 所 示 ， 在 数据 仓库 初期 只 有 几 个 GB 大 小 的 数据 。 这 些 量 并 不 惊人 也 没有 引起 
人 们 的 关注 。 然 而 过 了 很 短 的 一 段 时 间 之 后 ， 增 长 到 上 百 GB 的 数据 。 这 个 数量 引起 较 小 的 关 
注 ， 但 并 不 大 。 时 间 继 续 推进 ， 很 快 增长 到 几 个 TB (万 亿 字 节 ) 的 数据 。 现 在 人 们 才 开 始 真 
正 关注 一 些 问 题 了 。 如 预算 的 问题 、 数 据 库 的 设计 和 管理 问题 、 响 应 时 间 问 题 等 。 更 多 的 时 
间 过 去 了 ， 企 业 被 10 千 万 亿 字 节 或 更 多 的 数据 所 惊醒 。 昨 天 的 担忧 变 成 今天 的 危机 。 数 据 自 
身 在 不 断 积 累 。 每 增加 一 个 新 字 节 ， 问 题 便 会 增加 一 分 。 


12.1 快速 增长 的 原因 


为 什么 会 有 如 此 大 量 的 数据 开始 在 数据 仓库 中 出 现 昵 ? 在 数据 仓库 中 数据 增长 如 此 快速 
存在 几 个 方面 的 原因 。 图 12-2 给 出 了 儿 个 原因 。 

图 12-2 表 明 数 据 仓库 是 包含 历史 的 。 在 信息 技术 环境 里 的 任何 地 方 都 有 数据 历史 的 存储 。 
事实 上 ， 在 OLTP 环 境 中 ， 历 史 数 据 由 于 会 影响 执行 效率 会 被 尽 可 能 快 地 丢弃 。 历 史 数 据 越 多 ， 
性 能 越 差 。 所 以 ， 自 然 地 ， 系 统 程序 员 和 应 用 开发 者 都 会 尽 可 能 快 地 删除 历史 数据 来 获取 响 
应 时 间 。 

但 是 历史 数据 在 理解 客户 方面 却 发 挥 着 重要 作用 因为 所 有 的 客户 都 会 依 习惯 办 事 ， 所 
以 理解 客户 并 预测 出 客户 将 要 做 什么 就 成 为 关键 。 但 是 ， 因 为 OLTP 程 序 员 不 喜欢 历史 数据 ， 
所 以 除 了 数据 仓库 没有 其 他 更 好 的 地 方 用 来 存储 历史 数据 了 。 

数据 仓库 变 得 如 此 庞大 的 第 二 个 原因 是 数据 仓库 以 最 低 粒度 级 收集 数据 。 为 了 使 数据 仓 
库 具 有 灵活 性 (这 是 数据 仓库 存在 的 一 个 原因 )， 数 据 仓库 必须 收集 细节 数据 。 原 因 是 很 明显 
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的 。 有 了 细节 数据 ， 开 发 者 或 分 析 员 就 能 够 以 别人 从 未 用 过 的 方式 使 用 数据 。 数 据 一 旦 被 汇 
总 ， 就 不 能 被 分 解 和 以 其 他 方式 重新 形成 。 汇 总 数据 具有 不 变性 并 且 是 不 通用 的 。 


i 8 
历史 和 乱 
网 2 D> 


图 12-2 数据 仓库 增长 的 原因 


如 果 想 创建 可 重用 的 数据 基础 ， 那 么 必须 建立 在 低 粒 度 级 上 。 

第 三 个 原因 是 需要 将 很 多 不 同 种 类 的 数据 聚集 。 在 数据 仓库 中 ， 数 据 源 通常 是 多 种 多 样 
的 。 数 据 仓 库 描述 了 某 个 企业 的 数据 集成 程度 。 也 可 以 说 数据 仓库 是 企业 数据 库 的 具体 化 。 

这 里 包括 公用 关键 字 ， 公 用 引用 表 ， 公 用 数据 定义 ， 公 用 编码 方案 ， 公 用 结构 等 等 。 数 
据 仓库 描述 了 企业 里 的 最 低级 别 的 公用 数据 名 称 。 

以 上 是 数据 仓库 中 大 量 数据 蔓延 的 原因 。 以 下 是 表述 这 一 问题 的 另 一 种 简单 方法 : 

历史 数据 一 细节 数据 一 多 种 数据 = 大 量 数 据 


12.2 庞大 数据 量 的 影响 


数据 仓库 收集 到 大 量 数据 已 经 是 事实 。 那 又 怎样 ?为 什么 会 有 问题 ? 

事实 证 明 有 很 多 原因 可 以 说 明 ， 包 括 如 下 几 方面 : 

。 花 销 一 一 大 量 数据 花费 很 多 钱 。 

。 有 效 性 一 一 企业 是 否 使 用 收集 到 的 所 有 数据 。 

“数据 管理 一 一 随 着 数据 量 的 增加 ， 数 据 管理 规则 也 要 更 改 。 

以 上 这 些 重要 的 原因 中 ， 或 许 最 有 趣 的 是 数据 管理 规则 会 随 着 数据 量 增长 而 变化 。 要 了 
解 为 何如 此 ， 考 虑 数据 管理 的 一 些 基 本 活动 ， 例 如 图 12-3 描 述 的 那些 。 


12.2.1 基本 数据 管理 活动 


图 12-3 以 50GB 的 数据 量 为 例 ， 大 多 数 基本 数据 
管理 活动 在 不 经 考虑 和 准备 下 完成 。 下 载 50GB 的 数 Fe 
据 大 概 需 要 1 小 时 或 更 少 。 索 引 这 些 数据 可 以 在 较 短 ”下载 二 1 小 时 
时 间 内 完成 ， 大 概 15 分 钟 。 访 问 数据 就 更 快 了 ， 仅 以 。 索引 15 分 名 











毫秒 计算 . 但是， 对 于 10TB 的 数据 ， 基 本 数据 管理 ee 
活动 的 情况 就 不 同 了 。 下 载 10TB 的 数据 需要 12 个 小 索引 一 -72 小 时 
时 或 更 多 。 索 引 需 要 72 小 时 或 者 更 长 ， 取 决 于 正在 进 六 一 3 


行 的 索引 .访问 响应 时 间 以 秒 来 衡量 而 不 是 毫秒 级 了 。 图 12-3 “ 随 着 数据 量 的 增长 ， 数据库 
此 外 ， 索 引 需要 的 空间 也 成 为 要 考虑 的 问题 。 功能 需要 更 多 的 资源 
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以 此 类 比 ， 管 理 50GB 的 数据 好 比 驾 驭 湖 里 的 小 舟 而 管理 千 万 亿 级 的 数据 则 像 是 要 在 北大 
西洋 上 冬天 的 暴风 雪 中 驾 驭 伊丽莎白 女王 2 号 。 两 个 任务 都 能 完成 ,但 是 任务 的 完成 却 需 要 完 
全 不 同 的 考虑 因素 和 复杂 性 。 

由 于 以 上 原因 ， 数 据 量 的 分 析 和 管理 同时 还 要 承担 着 对 环境 的 深入 分 析 、 实 践 和 对 数据 
仓库 的 预算 。 


12.2.2 存储 费用 


经 常 忽视 的 一 个 因素 就 是 数据 仓库 存储 所 需要 的 费用 。 图 12-4 表 明 随 着 数据 仓库 规模 的 
增 大 ， 数 据 仓 库 的 预算 也 在 增加 ， 在 一 些 情况 下 还 是 以 指数 级 增长 。 

图 12-4 显 示 在 数据 仓库 的 初期 只 需要 几 分 钱 ， 这 是 相对 来 说 的 。 事 实 上， 在 很 多 环境 中 ， 
数据 仓库 起 初 的 费用 很 少 以 至 于 数据 仓库 以 一 种 “ 自 山 式 ” 预 算 开始 。 在 跨 秽 式 预算 中 ， 已 
经 将 钱 分配 到 某 些 项 目 上 而 不 是 数据 仓库 。 由 于 数据 仓库 刚 开 始 所 需 费 用 非常 少 ， 所 以 预算 
可 以 算 到 其 他 项 目 里 去 。 所 以 数据 仓库 开始 只 需要 投入 很 少 的 预算 。 


中 . 


6 个 月 50GB [ 
1 500G8 人 


2 年 2TB 


图 12-4 随 着 数据 量 的 增加 ， 其 费用 也 在 急剧 增长 


随 着 时 间 推 移 和 数据 仓库 中 数据 量 的 增加 ， 数 据 仓 库 的 预算 开始 提升 。 到 这 时 ， 数 据 仓 
库 已 经 体现 出 对 企业 的 价值 ， 所 以 ， 没 有 人 过 多 地 关注 它 的 费用 。 

但 是 有 一 天 ,企业 终于 惊醒 并 发 现 数据 仓库 消耗 资源 如 同 三 月 份 刚 从 冬眠 苏醒 的 仿 禁 的 
黑熊 。 数 据 仓库 开始 以 不 可 预测 的 速度 花 掉 所 有 预算 。 

理论 上 ， 磁 盘 供 应 商会 告诉 你 这 种 事情 不 会 发 生 。 他 们 会 说 磁盘 容量 一 直 在 降价 。 并 且 
照 他 们 说 的 目前 是 对 的 。 问 题 是 磁盘 供应 商 设 有 说 出 真正 的 事实 。 他 们 没有 说 的 是 磁盘 的 存 
储 内 容 只 是 整个 存储 费用 中 的 一 部 分 (相对 很 小 的 部 分 )。 


12.2.3 实际 存储 费用 


图 12-5 给 出 了 有 关 磁 盘存 储 费用 更 准确 的 描述 。 

图 12-5 表 明 除 了 存储 设备 本 身 还 有 很 多 成 分 一 起 组 成 磁盘 存储 设备 。 包 括 磁盘 控制 器 
通信 线 ， 用 来 控制 数据 用 途 的 处 理 器 。 还 包括 保证 处 理 器 正常 运作 的 软件 。 还 有 数据 库 软 件 ， 
操作 系统 软件 ， 商 业 智 能 软件 等 各 种 软件 。 所 有 这 些 组 成 随 着 数据 量 的 扩充 而 增加 开销 。 每 


3 年 10TB 





大 型 数据 俘 座 到了 


兆 字 节 存储 的 实际 费用 只 是 其 中 的 一 项 支出 。 正 是 由 于 这 些 原因 ， 存 储量 的 增 大 会 对 IT 费用 
产生 巨大 的 影响 。 仅 仅 关注 每 净 字 节 的 费用 和 它 的 降低 是 一 个 很 大 的 误导 。 


通信 控制 器 





软件 磁盘 控制 器 
图 12-5 存储 费用 不 仅仅 是 兆 字 节 的 费用 ， 实 际 上 存储 费用 包括 数据 周围 的 基础 设施 
另 一 种 看 待 兆 字 节 级 别 上 存储 费用 降低 的 方式 是 要 明白 存储 消费 增长 的 速度 要 比 存储 费 
用 的 降低 的 速度 快 得 多 。 
12.2.4 大 型 数据 量 中 的 数据 使 用 模式 


影响 硬件 预算 增长 的 另 一 相关 因素 是 : 已 经 获取 到 的 数据 的 使 用 情况 ， 如 图 12-6 所 示 。 

当 一 个 企业 的 数据 仓库 只 有 50GB 的 存储 容量 时 ， 几 乎 所 有 的 数据 都 在 被 使 用 。 大 多 数 查 
询 可 以 根据 需要 访问 到 数据 仓库 中 的 所 有 数据 。 但 是 随 着 数据 仓库 数据 量 的 增长 ， 这 些 基 本 
查询 却 可 能 不 能 实现 了 。 


> 





2TB 实 际 使 
用 35% 


10TB 实 际 使 用 5% 
图 12-6 随 着 时 间 的 推移 ， 数 据 量 在 增加 ， 而 实际 使 用 数据 的 百分比 却 在 降低 


随 着 数据 量 的 逐渐 增加 ， 实 际 使 用 数据 的 百分比 却 在 逐渐 减 小 。 也 就 是 说 ， 数 据 量 增长 
的 同时 实际 使 用 数据 的 百分比 却 降低 了 。 
为 了 证 明 这 点 ， 让 我 们 来 做 一 个 简单 的 练习 。 


12.2.5 一 个 简单 计算 


以 正在 使 用 的 数据 仓库 最 终 用 户 数 为 例 。 考 虑 平均 每 天 做 了 多 少 查 询 。 然 后 算出 平均 每 
条 查询 使 用 多 少 字 节 的 数据 。 现 在 就 能 算出 一 年 中 的 200 天 (大概 二 年 的 工作 日 ) 访问 了 多 少 
数据 : 

用 户 数 一 每 天 查询 数 一 每 条 查询 的 字 节 数 一 200 天 

现在 考虑 重 登 因素。 重合 要 考虑 是 因为 有 些 数 据 我 们 需要 查询 不 止 一 次 。 因 此 要 正确 估 
计 出 重合 因素 然后 进行 约 简 。 例 如 ， 如 果 有 50% 的 数据 是 重复 的 ， 就 将 数据 量 除 以 2。 

根据 重 公 因素 将 数据 量 约 减 后， 就 得 到 企业 一 年 所 需 的 数据 量 。 典 型 数值 是 250GB 的 数 
据 满 足 600 名 用 户 需 求 ， 其 中 数据 仓库 总 数据 量 为 2TB。 
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下 面 来 计算 使 用 率 : 

使 用 率 = 实际 使 用 数据 量 字 节 数 / 数据 仓库 总 数据 量 字 节 数 

你 会 发 现 使 用 率 只 有 5% 或 更 少 ， 这 并 不 稀奇 。 在 一 个 拥有 非常 大 的 数据 仓库 的 大 型 商场 
里 ,根据 估算 商场 在 一 年 里 只 使 用 了 数据 仓库 中 不 到 1% 的 数据 。 

下 面 是 考虑 用 户 类 型 的 一 种 情况 。 如 果 你 的 企业 是 由 大 多 数 “ 农 民 ” 组 成 ， 那么 使 用 数 
据 量 就 能 够 预测 而 且 将 会 较 小 。 如 果 企 业 里 有 很 多 “探险 家 ”， 那么 数据 使 用 率 就 可 能 会 很 高 。 
(这 里 的 农民 指 那些 以 能 预测 的 方式 使 用 数据 的 用 户 ， 探 险 家 指 那些 以 不 可 预测 方式 使 用 数据 
的 用 户 。) 

不 管 怎 样 ， 随 着 数据 仓库 中 数据 量 的 增加 ， 数 据 实际 使 用 率 都 在 降低 。 





12.2.6 两 类 数据 
当 商 场 在 处 理 大 型 数据 仓库 时 ， 通 常会 把 存储 在 数据 仓库 的 数据 分 为 两 类 。 在 一 个 大 型 
数据 仓库 中 ， 数 据 要 么 经 常 使 用 要 么 很 少 使 用 。 很 少 使 用 的 人 
» » > we < 
数据 通常 称 为 休眠 数据 或 非 活动 数据 。 经 常 使 用 的 数据 称 作 > 
活动 数据 。 i 
图 12-7 给 出 了 大 型 数据 仓库 中 这 种 数据 分 类 的 方式 。 人 


随 着 时 间 推 移 ， 数 据 逐 渐 倾 向 于 两 种 状态 之 一 一 一 频繁 
使 用 数据 或 非 频繁 使 用 数据 。 数 据 仓库 变 得 越 大 ， 频 繁 使 用 ”图 12-7 随 着 时 间 推移 ， 数 据 使 用 
数据 就 会 越 少 而 非 频 繁 使 用 数据 反而 越 多 。 方式 出 现 了 明显 的 划分 

一 个 频繁 使 用 数据 一 个 月 会 使 用 两 到 三 次 。 而 非 频繁 使 用 数据 也 许 每 年 访问 的 次 数 不 到 
0.5 次 。 当 然 ， 这 些 数字 都 与 使 用 的 环境 相关 的 。 


12.2.7 数据 分 类 涉及 的 问题 


随 着 数据 仓库 数据 量 的 增加 ， 将 数据 分 为 两 类 也 涉及 一 些 问题 。 遇 到 的 问题 之 一 是 数据 
仓库 中 磁盘 存储 的 间歇 性 问题 。 也 就 是 说 ， 如 果 数 据 分 为 两 类 ， 那 么 磁盘 是 否 还 是 存放 数据 
仓库 的 理想 存储 介质 了 呢 ? 如 图 12-8 所 示 考 虑 将 数据 仓库 存放 在 除 磁 盘 外 其 他 存储 介质 上 的 
情况 ， 考 虑 在 不 同 的 环境 下 访问 数据 。 





DSS 环境 一 频繁 使 用 数据 和 非 


OLTP 环 境 一 一 对 给 定 的 频繁 使 用 数据 之 间 存在 明显 区 分 


数据 单元 进行 随机 访问 
图 12-8 OLTP 和 DSS 数据 仓库 的 数据 使 用 模式 存在 很 大 的 差异 
图 12-8 给 出 了 OLTP 数 据 和 数据 仓库 的 DSS 数据 ， 这 两 种 类 型 的 数据 都 存放 在 磁盘 上 。 
在 OLTP 环 境 中 ， 可 以 以 大 致 相同 的 概率 访问 数据 。 当 一 个 交易 进入 系统 并 且 需 要 访问 一 
个 数据 单元 。 然 后 ， 另 一 个 交易 进入 系统 同时 又 要 访问 另 一 数据 单元 。 接 着 ， 第 三 个 交易 进 
入 系统 并 且 又 有 一 数据 单元 需要 访问 。 为 了 达到 实际 目的 ， 进 大 系统 的 交易 没有 顺序 。 交 易 . 
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进入 OLTP 环 境 完 全 是 一 种 随机 方式 。OLTP 交 易 的 这 种 随机 进入 方式 的 结果 是 当 要 访问 OLTP 
数据 时 却 预测 不 到 磁盘 访问 的 模式 。OLTP 数 据 被 随机 访问 并 且 访 问 OLTP 环 境 中 每 个 数据 单 
元 的 概率 都 差不多 。 对 于 这 种 随机 访问 模式 ， 磁 盘存 储 设备 是 理想 的 。 

现在 来 考虑 DSS 数 据 的 访问 模式 。 现 在 要 撰写 一 篇 报告 并 且 需 要 使 用 2004 年 所 有 的 数据 。 
接着 ， 要 对 2004 到 2005 年 的 数据 进行 分 析 。 然 后 需要 2003 年 中 期 到 2005 年 的 更 多 数据 。 简 而 
言 之 ，2000、2001、2002 年 的 数据 几乎 很 少 涉及 甚至 从 未 被 访问 过 。 没 有 人 访问 旧 数 据 ， 所 
有 人 只 访问 最 新 数据 。 

在 数据 仓库 DSS 环境 中 ， 不 存在 像 OLTP 环 境 中 遇 到 的 随机 访问 模式 。 实 际 上 ,大 多 数 
DSS 处 理 受 日 期 限制 。 数 据 越 新 ， 越 可 能 被 使 用 。 数 据 越 旧 , 被 访问 的 可 能 性 越 小 。 所 以 ， 
数据 仓库 DSS 环境 存在 着 明确 的 访问 模式 而 非 随机 的 。 


12.3 数据 在 不 同 介质 的 存储 


如 果 访 问 模式 存在 像 数 据 仓 库 DSS 中 的 数据 不 对 称 的 情况 ， 磁 盘存 储 是 否 理想 就 是 问题 
了 。 磁 盘存 储 开销 很 大 。 硬 件 供应 商 不 会 因为 存储 不 用 的 数据 而 少 收费 用 。 

因此 ， 在 数据 仓库 中 数据 通过 多 种 形式 存储 而 将 其 分 离 就 很 有 意义 了 。 将 经 常 使 用 的 数 
据 存放 到 高 性 能 存储 设备 。 不 经 常 使 用 的 数据 则 存放 到 海量 存储 介质 中 。 

如 图 12-9 所 示 ， 基 于 多 种 可 能 用 途 ， 将 数据 以 多 种 存储 形式 划分 。 

图 12-9 表 明 经 常 使 用 的 数据 存放 在 高 性 能 磁盘 存储 介质 中 ， 不 经 常 使 用 的 数据 放 在 海量 
存储 介质 中 。 海 量 存储 设备 是 指 速度 较 慢 ， 成 本 较 低 并 能 较 长 时 间 保 存 数据 的 一 种 存储 介质 。 
通常 海量 存储 器 称 作 近 线 存 储 ， 近 线 存 储 是 一 种 顺序 存储 。 


频繁 使 用 数据 


es : 
le 
自 Ev i a 


非 频繁 使 用 数据 
图 12-9 根据 使 用 频率 将 数据 分 别 存放 到 多 种 存储 介质 中 


磁盘 供应 商 总 是 认为 为 了 保证 性 能 应 该 将 所 有 的 数据 存放 在 磁盘 上 。 如 果 能 以 相同 的 概 
率 访问 所 有 数据 的 话 ， 商 家 是 对 的 。 但 是 例如 数据 仓库 DSS 数据 不 是 一 种 平均 访问 模式 。 将 
不 常用 的 数据 存放 到 近 线 存储 设备 实际 上 提高 了 数据 仓库 DSS 的 性 能 。 


12.3.1 近 线 存储 


图 12-10 给 出 了 近 线 存储 的 一 些 性 质 。 近 线 存 储 是 顺序 的 。 这 种 顺序 的 模式 被 机 械 地 控制 ， 
手工 永远 也 到 达 不 了 这 些 顺 序 存储 单元 。 近 线 存储 要 比 磁盘 存储 便宜 。 曾 经 一 段 时 期 ， 近 线 
存储 要 比 磁盘 存储 的 费用 少 一 个 数量 级 。 磁 盘 供 应 商 喜 欢 强 调 磁盘 存储 一 直 在 降价 。 实 际 上 ， 
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近 线 存储 的 费用 也 一 直 在 减少 。 所 以 ， 这 两 种 存储 形式 费用 的 比率 在 很 长 一 段 时 间 内 一 直 都 
保持 较 平稳 。 


近 线 存储 适用 于 存储 大 容量 的 数据 ， 可 以 存储 几 2 
十 或 几 百 万 亿 字 节 的 数据 。 近 线 存储 的 可 靠 性 也 可 以 “大 窜 量 数据 
保持 很 久 。 如 果 需 要 备份 ， 近 线 存储 中 将 数据 备份 到 “访问 第 一 条 记录 的 秒 数 
另 一 近 线 存储 介质 上 的 费用 是 很 低 的 。 soe 


近 线 存储 的 性 能 只 消耗 在 寻找 第 一 条 记录 上 。 找 
到 第 一 条 记录 后 ， 只 需要 纳 秒 的 时 间 就 可 以 访问 块 结构 中 的 其 他 记录 了 。 只 有 访问 第 一 条 记 
录 需 要 机 械 时 间 。 以 电子 时 间 就 能 访问 存储 块 中 的 其 他 记录 。 

图 12-11 描 述 了 近 线 存 储 块 中 访问 数据 的 情况 。 

如 图 12-11 所 示 ， 一 旦 将 块 结构 放 到 内 存 ， 存 储 块 里 的 所 有 行 而 不 是 只 有 第 一 行 就 被 访问 ， 
就 好 像 它们 常 驻 主 内 存 。 既 然 在 数据 仓库 中 连续 访问 很 普遍 ， 所 以 对 连续 数据 进行 有 效 的 访 
问 就 成 为 一 个 很 重要 的 因素 了 。 





访问 秒 数 访问 所 需 纳 秒 数 
图 12-11 第 一 行 被 访问 后 ， 其 他 行 可 以 以 电子 速度 访问 


12.3.2 访问 速度 和 磁盘 存储 


当 企业 使 用 不 同 存储 介质 时 ， 磁 盘 供 应 商 总 愿 拿 速度 的 损失 来 大 做 文章 。 当 访问 近 线 存 
储 数 据 从 电子 速度 变 为 机 械 速度 时 ， 需 要 支付 性 能 代价 。 但 是 将 数据 仓库 所 有 数据 存放 在 磁 
盘 上 又 会 造成 其 他 性 能 损失 。 事 实 上 ， 将 大 型 数据 仓库 中 的 所 有 数据 放 在 磁盘 存储 要 比 将 数 
据 放 到 不 同 的 存储 介质 中 慢 。 

为 了 说 明 所 有 数据 放 到 磁盘 存储 降低 速度 的 原因 ， 我 们 来 看 图 12-12 所 作 的 分 析 。 

图 12-12 给 出 两 种 情景 。 一 种 情况 下 ， 所 有 数据 存放 在 磁盘 上 。 另 一 种 情景 下 ， 所 有 的 数 
据 (相同 的 数据 ) 根据 访问 概率 的 大 小 存放 在 不 同 存储 介质 中 ， 所 有 经 常 使 用 的 数据 存放 在 
磁盘 上 ， 而 所 有 不 经 常 使 用 数据 存放 在 近 线 存储 介质 中 。 

考虑 系统 中 的 数据 流通 情况 。 在 很 多 方面 ， 数 据 流通 类 似 于 血液 在 动脉 里 流动 。 当 磁盘 
环境 里 存在 大 量 不 使 用 的 数据 时 ， 这 些 数据 就 像 血 液 中 的 胆固醇 。 胆 固 醇 越 多 ， 血 液 系统 的 
机 能 就 越 差 。 而 系统 的 机 能 越 差 ， 系 统 响 应 时 间 就 越 慢 。 

现在 来 考虑 根据 使 用 概率 将 数据 分 类 的 环境 。 这 种 情况 下 系统 处 于 高 效 的 数据 流通 状态 。 
使 用 和 上 面 类 似 的 分 析 ， 系 统 里 的 胆固醇 很 少 ， 心 脏 只 需要 很 少 的 工作 量 就 能 完成 相同 数量 
的 输送 。 系 统 只 需要 在 血管 中 输送 需要 的 数据 ， 因 此 ， 这 种 方式 下 的 系统 性 能 确实 好 。 

由 于 这 个 基本 原因 ， 将 数据 仓库 DSS 数据 存放 到 不 同 的 存储 介质 能 提高 性 能 。( 这 点 上 让 
磁盘 供应 商 很 受 委 届 ， 他 们 本 希望 所 有 的 数据 都 具有 像 OLTP 处 理 一 样 的 特征 。 实 际 上 ， 如 果 
所 有 数据 与 OLTP 环 境 中 的 数据 具有 相同 的 使 用 类 型 ， 那 么 只 需要 磁盘 就 可 以 了 。) 
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fe 频繁 使 用 数据 
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当 非 频繁 使 用 数据 与 频繁 使 用 数据 混 

用 数据 与 用 
合 使 用 时 ,数据 流 就 像 血 液 在 动脉 中 tie ee 
被 胆固醇 阻塞 一 样 


醇 的 血液 系统 一 样 
图 12-12 自由 循环 的 血液 与 存在 很 多 阻碍 成 分 的 血液 的 区 别 


12.3.3 存档 存储 


除了 要 对 大 量 数据 进行 管理 ， 还 需要 对 数据 进行 分 类 存储 。 需 要 以 一 种 归档 的 方式 管理 
大 量 数据 。 图 12-13 表 明 ， 除 了 磁盘 存储 和 近 线 或 海量 存储 外 ， 还 需要 存档 存储 。 


I 


存档 存储 


图 12-13 不 经 常 使 用 数据 有 很 多 存储 形式 


存档 存储 与 近 线 存储 很 相似 ， 不 同 之 处 在 于 存档 存储 中 的 数据 被 访问 的 概率 很 低 。 为 了 
更 清楚 各 类 存储 介质 中 访问 概率 的 关系 ， 来 看 下 面 的 简 表 : 

高 性 能 磁盘 存储 每 月 访问 一 个 数据 单元 

近 线 存储 每 年 访问 0.5 个 数据 单元 

存档 存储 每 十 年 访问 0.1 个 数据 单元 
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可 以 看 到 存档 数据 的 访问 概率 很 值得 关注 ， 几 乎 为 0。 实 际 上 ， 即 使 访问 概率 降 为 零 也 
需要 进行 存档 存储 。 有 时 会 通过 一 些 规则 来 规定 数据 的 存储 ， 这 时 ， 不 论 数据 是 否 曾经 被 访 
问 过 都 会 强制 存储 。 或 者 还 有 另外 一 种 情况 ， 当 出 现 与 数据 有 关联 的 合理 事件 时 ， 数 据 会 被 
存档 存储 。 在 最 理想 最 普通 的 情况 下 ， 根 本 不 会 再 用 到 这 ee 
些 数据 。 但 是 ， 如 果 当 企业 在 诉讼 的 问题 中 需要 用 到 数据 ， 
企业 就 能 很 方便 地 从 存档 存储 中 查找 到 需要 的 数据 来 为 自 
己 辩护 。 

还 有 一 些 情况 需要 将 近 线 存储 环境 的 数据 迁移 到 存档 存 
储 环境 。 

尽管 近 线 存储 环境 和 存档 存储 环境 有 很 多 相似 之 处 ， 但 
两 者 也 存在 很 大 差别 。 其 中 一 个 重要 的 区 别 是 能 否 被 看 作 是 
数据 仓库 的 数据 外 延 ， 如 图 12-14 所 示 。 

图 12-14 表 明 从 逻辑 上 来 看 ， 近 线 存储 被 看 作 仅 是 数据 仓 
库 的 扩展 。 事 实 上 ， 在 一 些 情况 下 ， 数 据 的 位 置 对 最 终 用 户 
是 透明 的 。 这 种 情况 下 ， 当 最 终 用 户 查 询 时 ， 不 知道 数据 是 
存放 在 高 性 能 存储 设备 还 是 近 线 存储 设备 中 。 然 而 ， 如 果 数 。 12-14 近 线 存储 认为 是 数据 仓库 
据 是 存档 存储 的 ， 最 终 用 户 总 是 知道 数据 不 是 存放 在 高 性 能 。 的 四 加 外 延 ， 而 存档 存储 基 不 是 
存储 设备 中 。 因 此 ， 将 数据 近 线 存储 而 不 是 存档 存储 的 意义 就 在 于 ， 近 线 存储 中 数据 的 位 置 
对 最 终 用 户 来 说 是 造 明 的 。 


12.3.4 透明 的 意义 


这 种 透明 的 意义 很 重大 。 首 先 ， 如 果 数 据 是 透明 的 ， 那 么 近 线 存储 中 的 一 行 数据 在 形式 
上 就 和 数据 仓库 高 性 能 环境 中 的 一 行 数据 看 上 
去 一 样 了 。 图 12-15 给 出 了 这 种 需要 。 

其 次 ， 要 实现 透明 性 ， 有 必要 使 近 线 系统 
对 数据 库 系 统 是 可 用 的 。 另 外 ， 两 个 环境 间 必 
须 在 技术 上 相 容 。 

当然 ， 在 数据 仓库 环境 和 存档 环境 之 间 就 
没有 这 个 必要 。 存 档 环境 可 以 以 任何 形式 保存 
数据 ， 而 且 存 档 环 境 也 不 一 定 要 与 数据 仓库 对 


应 的 数据 库 环 境 相 兼容 。 图 12.15 数据 仓库 中 的 一 条 记录 或 一 行 数据 和 近 
12.4 环境 间 数 据 转移 线 存储 中 的 一 条 记录 或 一 行 数据 是 等 同 的 








将 数据 在 近 线 存 储 与 以 磁盘 为 基础 的 数据 仓库 环境 间 转 移 的 方法 很 多 。 图 12-16 给 出 了 一 
些 方法 。 

图 12-16 表 明 数 据 流 在 数据 仓库 和 近 线 存储 环境 间 转 移 的 三 种 方法 。 第 一 种 方法 是 由 数据 
库 管 理 员 手 工 转移 数据 。 这 种 方式 非常 灵活 而 且 效 果 很 好 。 管 理 员 根 据 转移 的 要 求 从 近 线 存 
储 转 移 并 “安置 好 数据 "。 管 理 员 可 以 根据 需要 移动 整个 数据 表 集 或 是 数据 表 的 一 个 子 集 。 管 
理 员 会 启动 监控 器 对 数据 仓库 进行 监控 ， 随 时 决定 哪些 数据 需要 移 至 近 线 存储 。 这 种 手工 方 
法 是 可 行 的 并 且 不 应 该 忽视 。 这 种 方法 最 简单 ， 而 且 对 任何 人 都 适用 。 
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图 12-16 管理 数据 流 从 一 级 存储 转移 到 另 一 级 的 三 种 方法 


第 二 种 是 分 级 存储 管理 方法 (HSM )。 这 种 方法 需要 在 数据 仓库 和 近 线 存储 环境 之 间 移 动 
整个 数据 集 。 这 种 方法 可 以 自动 执行 不 需要 人 工交 互 。 这 种 方法 相当 简单 。 但 是 存在 的 问题 
是 移动 操作 要 在 整个 数据 集 上 进行 。 在 有 些 环境 中 移动 整个 数据 集 是 可 行 的 ;比如 在 个 人 计 
算 机 环境 下 。 但 是 对 于 数据 仓库 环境 ， 如 果 将 整个 数据 集 在 数据 仓库 和 近 线 存储 环境 间 来 回 
转移 很 显然 是 不 好 的 。 在 HSM 方 法 中 ， 数 据 仓库 和 近 线 环境 间 的 数据 迁移 需要 在 更 合理 的 粒 
度 级 上 而 不 是 在 整个 数据 集 上 进行 。 

第 三 种 方法 是 交叉 介质 存储 管理 (CMSM)。CMSM 方 法 是 全 自动 的 。 由 于 这 种 方法 在 行 
粒度 级 上 操作 ， 所 以 行 数据 可 以 在 数据 仓库 和 近 线 存储 环境 间 迁 移 。CMSM 方 法 解决 了 前 两 
种 方法 遇 到 的 很 多 问题 。 但 是 ， 这 种 方法 执行 起 来 很 复杂 而 且 成 本 也 较 高 。 

以 上 是 三 种 管理 数据 迁移 的 方法 ， 每 种 方法 都 有 优 缺 点 ， 如 表 12-1 所 示 。 

无 论 如 何 ， 管 理 进出 近 线 环境 的 数据 流 是 非常 重要 的 。 


表 12-1 移动 数据 的 方法 





优点 缺 点 
FI 非常 简单 : 立即 可 用 ; 在 行 级 上 进行 操作 容易 出 错 ; 需要 人 工交 世 
HSM 相对 简单 ; 成 本 不 高 ; 全 自动 在 数据 集 上 操作 
CMSM 全 自动 ; 在 行 级 上 操作 成 本 高 ;执行 和 操作 较 复杂 
12.4.1 CMSM 方 法 uc 


储 是 透明 的 。 也 就 是 说 ， 使 用 CMSM 方 法 最 终 用 户 不 需要 知道 数 
据 在 什么 位 置 一 是 在 数据 仓库 还 是 在 近 线 存储 中 。 
观察 图 12-17， 并 跟随 系统 中 的 用 户 需求 看 CMSM 软 件 是 如 CYSM 


CMSM 技 术 是 全 自动 的 。CMSM 是 一 种 软件 ， 数 据 的 物理 存 \ 数据 仓库 监控 器 


何 工作 的 。 
首先 从 系统 得 到 一 个 请 求 。 分 析 请 求 并 决定 需要 哪些 数据 。 
如 果 需 要 的 数据 已 经 在 数据 仓库 (也 就 是 已 经 在 磁盘 中 )， 系 统 
令 查 询 继续 进行 。 但 是 ， 当 系统 发 现 需要 近 线 存储 的 数据 时 ， 系 
统 令 查询 排队 等 待 并 进入 近 线 存储 环境 。 当 系统 找到 需要 的 近 线 


存储 数据 后 把 它们 收集 起 来 。 一 旦 收集 好 ， 数据 就 送 到 数据 仓库 图 12-17 交叉 介质 存储 管 
环境 中 。 数 据 到 达 数 据 仓 库 后 ， 添 加 到 它们 所 属 的 数据 仓库 表 。 理 器 (CMSM) 
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一 旦 数据 装载 到 数据 仓库 后 ， 查 询 出 列 并 执行 。 看 起 来 好 像 要 查询 的 数据 一 直 在 数据 仓库 中 
一 样 。 
对 于 在 数据 仓库 中 进行 的 数据 查询 和 在 数据 仓库 及 近 线 存储 之 间 进 行 的 数据 查询 ， 最 终 
用 户 并 看 不 出 其 中 的 差别 。 两 者 唯一 的 区 别 是 查询 的 执行 时 间 。 近 线 存储 中 查询 的 执行 时 间 
更 长 一 些 。 除 了 这 一 点 之 外 ， 对 于 最 终 用 户 方面 没有 其 他 额外 的 要 求 。 

当然 ， 如 果 环 境 运 行 正常 ， 只 有 临时 查询 才 会 为 存放 在 近 线 存储 的 数据 消耗 时 间 ， 因 为 
根据 定义 近 线 存储 包含 的 是 不 经 常 访问 的 数据 。 


12.4.2 数据 仓库 使 用 监控 器 


通过 使 用 数据 仓库 监控 器 来 使 CMSM 环 境 下 的 操作 更 具 流 线 性 。 图 12-18 表 示 一 个 数据 仓 
库 监 控 器 。 

如 图 12-18 所 示 ， 进 入 数据 仓库 的 SQL 命令 被 监控 ， 这 些 命令 的 结果 集 也 被 监控 。 系 统管 
理 员 能 够 知晓 在 数据 仓库 中 哪些 数据 正在 被 使 用 或 者 没有 被 使 用 。 监 控 器 能 从 行 级 和 列 级 掌 
担 数据 的 使 用 情况 。 通 过 使 用 数据 监控 器 ， 比 只 能 在 数据 仓库 中 存放 1 年 的 数据 这 种 传统 的 方 
法 ， 系 统管 理 员 更 容易 掌握 数据 的 情况 了 。 


数据 仓库 监控 器 





图 12-18 截取 和 分 析 SQL 命 令 


数据 仓库 监控 器 包括 两 种 ， 一 种 由 DBMS 供 应 商 提供 ， 另 一 种 由 第 三 方 提供 。 通 常 ， 第 
三 方 监控 器 更 好 一 些 ， 因 为 DBMS 供 应 商 提供 的 监控 器 需要 
的 资源 比 他 们 提供 的 多 得 多 。 实 际 上 ，DBMS 供 应 商 提供 的 
监控 器 需要 很 多 的 资源 才能 运行 ， 以 至 于 当 遇 到 资源 使 用 
高 峰 期 或 繁忙 期 时 不 得 不 关闭 监控 器 一 一 恰巧 这 时 你 却 不 
想 关 掉 它们 。 而 第 三 方 供应 商 提供 的 数据 仓库 监控 器 只 需 
要 很 小 量 的 资源 ， 而 且 特 别 适合 数据 仓库 使 用 。 

有 时 ， 管 理 员 会 在 数据 仓库 环境 下 尝试 使 用 交易 监控 
器 。 交 易 监控 器 设计 用 来 优化 OLTP 环 境 中 的 交易 流 。 在 数 
据 仓库 中 尝试 使 用 交易 监控 器 来 管理 数据 的 使 用 情况 ， 就 
好 比 用 修理 汽车 的 工具 来 维修 飞机 或 轮船 。 很 明显 这 样 做 
即使 能 运作 也 是 不 合适 的 。 


12.4.3 不 同 存储 介质 下 数据 仓库 的 扩展 


随 着 数据 仓库 从 磁盘 存储 到 近 线 存储 和 存档 存储 的 扩 
展 ， 数 据 仓库 也 扩展 成 拥有 庞大 的 数据 ， 如 图 12-19 所 示 。 图 12-19 无 限 增长 
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数据 仓库 可 以 增长 到 千 万 亿 字 节 数 据 量 ， 并 且 仍 然 有 效 和 可 管理 。 
12.5 数据 仓库 转换 


当 考 虑 不 同 的 存储 形式 时 ， 有 必要 进行 “数据 仓库 转换 ”。 有 了 数据 仓库 转换 ， 管 理 任何 
数量 级 的 数据 就 成 为 可 能 。 

那么 ,什么 是 数据 仓 岩 转换 昵 ? 考虑 一 个 普通 的 数据 仓库 。 几 乎 所 有 的 企业 建立 数据 仓 
库 的 方法 都 是 首先 将 数据 放 到 磁盘 上 存储 。 随 着 数据 的 老化 ， 数 据 被 转移 到 近 线 存储 或 存档 
存储 。 在 不 同 存储 介质 间 存 在 着 正常 的 数据 流通 。 

但 还 有 另 一 种 选择 。 这 种 选择 指 的 是 首先 将 数据 存放 在 近 线 存储 而 不 是 磁盘 存储 。 然 后 
当 查 询 执行 完毕 ， 数 据 从 近 线 环境 转移 到 磁盘 环境 。 进 入 磁盘 环境 后 ， 数 据 被 访问 和 分 析 ， 
这 些 数据 看 起 来 就 好 像 一 直 待 在 这 里 。 一 旦 分 析 结 束 ， 数 据 再 返回 近 线 存储 。 

在 一 个 普通 的 数据 仓库 中 ， 当 前 数据 存放 在 磁盘 上 。 而 在 转换 数据 仓库 中 ， 当 前 数据 存 
放 在 近 线 存储 中 。 

当然 ， 进 行 数据 转化 需要 一 定 的 代价 。 每 次 请 求 都 需要 等 待 ， 等 待 要 消耗 时 间 。 但 是 ， 
(取决 于 正在 进行 的 分 析 ) 等 待 也 不 定 会 有 损失 。 如 果 同 时 有 很 多 的 开发 者 在 访问 和 分 析 数 
据 ， 那 么 等 待 所 消耗 的 费用 可 以 是 满足 这 种 不 规则 请 求 开销 中 的 一 部 分 。 

当然 ， 也 可 以 通过 运行 多 个 基于 磁盘 的 DBMS 程 序 来 减 小 性 能 损耗 。 在 这 种 方式 下 ， 克 
许多 个 查询 同时 进行 。 也 就 是 说 ， 在 两 个 基于 磁盘 的 DBMS 系 统 运行 下 ， 可 以 同时 进行 两 组 
查询 和 分 析 ， 因 此 可 以 减 小 队列 数据 等 待 需要 的 时 间 。 通 过 运行 多 个 基于 磁盘 的 DBMS 程 序 ， 
可 以 完成 一 定数 量 的 并 行 处 理 。 
12.6 总 费用 

对 庞大 数据 量 的 管理 还 有 另 一 种 观点 : 随 着 数据 量 的 增加 ， 数 据 仓 库 需 要 的 预算 也 随 之 
增长 。 通 过 引入 近 线 和 存档 存储 降低 了 数据 仓库 费用 的 增长 。 图 12-20 给 出 了 较 长 一 段 时 间 内 
数据 仓库 执行 的 总 费用 曲线 图 。 


图 中 左边 的 是 只 使 用 磁盘 存储 的 数据 仓库 的 费用 曲线 。 右 边 是 引入 近 线 和 存档 存储 后 的 数 
据 仓 库 的 费用 曲线 。 从 右边 的 曲线 可 以 看 出 引入 了 近 线 存储 和 存档 存储 之 后 曲线 出 现 了 变形 。 


/| 


仅 使 用 磁盘 存储 的 数据 使 用 多 种 存储 介质 的 数 
仓库 总 费用 曲线 图 据 仓 库 总 费用 曲线 图 





图 12-20 使 用 近 线 存储 的 企业 和 没有 近 线 存储 的 企业 在 长 期 预算 费用 上 的 区 别 


12.7 最 大 容量 

在 很 多 场合 ， 你 会 听 到 “XYZ 计 算 机 可 以 处 理 nann 万 亿 字 节 的 数据 .” 这 甸 话 经 常 是 想 做 
为 一 种 惊人 的 尝试 ， 好 像 计 算 机 处 理 大 量 字 节 是 一 件 了 不 起 的 壮举 。 实 际 上 ， 度 量 一 台 计 算 
机 能 够 处 理 的 字 节 数 是 毫 无 意义 的 。 事 实 上， 要 度量 一 台 计 算 机 的 容量 必须 与 其 他 参数 结合 
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ac =- 


起 来 考虑 。 

图 12-21 表 明 为 了 对 一 台 计算 机 的 容量 进行 有 意义 的 度量 ， 必 须 给 出 三 个 彼此 制约 的 参数 。 
这 三 个 参数 是 : 

。 数 据 量 

。 用 户 数 

“工作 量 的 复杂 度 

这 三 个 参数 结合 在 一 起 能 很 好 地 度量 一 台 计算 机 的 容量 。 

对 于 任 一 参数 ， 它 可 以 以 另外 两 个 为 代价 达到 最 优化 。 图 12-22 表 明 ， 如 果 只 有 很 少 的 用 
户 ， 并 且 工 作 很 简单 ， 那 么 大 量 的 数据 就 可 以 装载 到 机 器 上 。 


数据 量 数据 量 
人 工作 量 复杂 度 用 户 数 Es 
图 12-21 容量 管理 中 的 三 个 参数 图 12-22 数据 量 最 优化 下 的 容量 
另 一 种 可 能 是 如 果 以 用 户 数 和 数据 量 为 代价 ， 也 可 以 得 到 非常 复杂 的 工作 量 。 图 12-23 显 


示 了 这 种 情况 。 
然而 还 有 另外 一 种 可 能 是 可 以 存在 大 量 的 用 户 ， 而 只 有 很 简单 的 工作 量 和 少量 的 数据 。 
图 12-24 给 出 了 这 种 情况 。 


数据 量 数据 量 


有 EA 
a 工作 量 复杂 度 用 户 数 Was 


图 12-23 工作 量 复杂 度 最 优化 下 的 容量 图 12-24 用 户 数 最 优化 下 的 容量 


平衡 的 情况 是 存在 合理 的 数据 量 ， 合 理 的 用 户 数 和 复杂 度 适 中 的 工作 量 。 图 12-25 给 出 了 
这 种 情况 。 

通过 观察 以 上 各 个 图 表 ， 可 以 得 出 结论 ， 任 何 一 个 参数 都 可 以 
以 其 他 参数 为 代价 进行 扩展 。 实 际 上 ， 可 以 将 大 量 数据 装载 到 机 器 
上 。 只 是 如 果 装 载 了 足够 多 的 数据 ， 就 不 会 有 工作 量 和 用 户 了 。 这 
也 是 只 把 大 量 数据 装载 到 机 器 上 的 话 就 什么 事情 都 做 不 了 的 原因 。 


12.8 小 结 用 户 数 


数据 仓库 正在 飞速 增长 。 在 短 短 的 几 年 之 内 ， 数 据 仓库 从 几 GB .本 全 全 全 
的 数据 增长 到 几 TB 的 数据 。 数据 仓库 变 得 如 此 庞大 的 原因 是 它 要 包含 历史 数据 ， 细 节 数 据 和 


数据 量 





工作 量 复杂 度 
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来 自 不 同 资源 集 的 数据 。 随 着 数据 仓库 规模 的 不 断 扩 大 ， 日 常 的 数据 管理 很 难 执行 ， 因 为 用 
来 处 理 如 此 大 的 数据 量 要 耗费 大 量 的 时 间 。 

随 着 数据 仓库 规模 的 扩大 ， 将 数据 仓库 中 的 数据 分 为 两 类 : 经 常 使 用 的 数据 和 不 经 常 使 
用 的 数据 。 不 经 常 使 用 的 数据 通常 称 作 休眠 数据 。 将 数据 仓库 的 数据 进行 分 类 意味 着 磁盘 存 
储 并 不 再 对 所 有 数据 都 是 最 佳 的。 不 经 常 使 用 的 数据 存放 在 低速 、 低 效 的 存储 介质 中 ， 如 近 
线 存储 。 通 过 将 不 经 常 使 用 的 数据 作 近 线 存储 ,减少 了 数据 仓库 的 费用 ， 并 且 性 能 也 有 了 很 
大 的 提高 。 性 能 提高 是 因为 不 经 常 使 用 的 数据 分 离 出 来 后 ， 处 理 的 效率 大 大 提高 。 

近 线 存储 是 在 机 器 人 学 和 现代 电子 学 体系 中 的 顺序 存储 技术 。 访 问 块 结构 的 第 一 条 记录 
需要 性 能 方面 的 开支 。 一 旦 将 块 结构 下 载 并 安置 到 处 理 器 中 ， 块 结构 中 其 他 记录 的 访问 就 可 
以 很 快 地 进行 了 。 

与 近 线 存储 类 似 的 另 一 种 存储 方式 是 存档 存储 。 近 线 存 储 中 的 数据 实际 上 是 数据 仓库 的 
逻辑 扩展 。 而 存档 存储 中 的 数据 却 不 能 认为 是 数据 仓库 的 直接 扩展 。 此 外 ， 近 线 存储 环境 中 
的 数据 被 访问 的 概率 比 存档 存储 环境 高 。 

管理 数据 仓库 和 近 线 存储 间 的 数据 流 有 三 种 方式 。 分 别 是 手工 方法 ，HSM 方 法 和 CMSM 
方法 。 每 种 方法 都 有 自身 的 优 缺 点 。 

CMSM 技 术 允 许 将 要 访问 和 管理 的 数据 是 透明 的 ， 即 不 明确 存储 地 址 。 当 使 用 CMSM 技 
术 时 ， 最 终 用 户 不 知道 被 访问 的 数据 是 在 磁盘 还 是 近 线 存储 设备 上 。 

对 于 真正 庞大 的 数据 量 ， 可 能 需要 转换 数据 仓库 。 当 进行 数据 仓库 转换 了 时， 数据 进入 近 
线 存储 ， 然 后 等 待 ， 直 到 访问 请 求 到 来 。 这 种 转换 方式 对 于 真正 庞大 的 数据 量 或 是 同时 有 很 
多 开发 者 要 满足 的 情况 是 理想 的 。 

大 型 数据 仓库 的 总 费用 通过 引入 近 线 存储 和 存档 存储 才 有 所 降低 。 如 果 没 有 近 线 存储 或 
存档 存储 ， 数 据 仓库 的 费用 会 随 着 数据 仓库 规模 的 增 大 而 暴涨 。 
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专业 数据 仓库 面临 的 一 个 问题 是 数据 仓库 中 数据 库 设 计 的 基本 模型 选取 问题 。 广 泛 采用 
的 数据 库 设 计 模 型 有 两 种 ， 关 系 型 和 多 维 型 。 普 遍 认为 在 数据 仓库 的 设计 方法 中 关系 模型 是 
“Inmon” 方 法 而 多 维 模型 是 “Kimball” 方 法 。 

本 章 将 主要 介绍 这 两 种 方法 的 区 别 和 在 数据 仓库 中 的 应 用 。 这 两 种 方法 都 有 各 自 的 优 缺 
点 。 这 些 优 缺 点 也 将 会 在 本 章 中 讨论 ， 并 将 得 出 结论 ， 在 建立 数据 仓库 过 程 中 ， 对 于 数据 库 
设计 而 言 ， 建 立 关 系 型 数据 库 是 最 佳 的 长 期 的 方法 ， 并 且 这 种 情况 需要 真正 的 企业 方法 。 多 
维 模型 利于 短期 数据 仓库 ， 但 这 种 方法 适用 的 数据 仓库 的 范围 有 限 。 


13.1 关系 模型 


关系 型 数据 库 设 计 首 先 要 创建 一 张 数据 表 ， 表 中 每 一 行 包含 不 同 的 列 。 图 13-1 给 出 一 张 
简单 数据 表 。 

注释 有 关 关 系 模型 和 关系 数据 库 设 计 的 权威 著作 请 参看 Ted Codd 和 Chris 

Date 的 书籍 和 文章 。 

关系 表 可 以 包含 不 同 的 属性 。 每 一 数据 列表 示 不 同 的 物理 特征 。 不 同 的 
列 可 以 索引 并 作为 标识 符 。 部 分 列 在 执行 过 程 中 可 以 为 空 。 所 有 列 都 是 根据 
数据 定义 语言 (DDL) 标准 定义 的 。 图 13-1 一 张 简 

数据 库 设计 的 关系 型 方法 始 于 20 世 纪 70 年 代 ， 并 通过 关系 型 执行 技术 如 。 ”单数 据 表 
IBM 的 DB2，Oracle 的 Oracle DBMS 产 品 ，Teradata 的 DBMS 产 品 等 ， 更 广泛 地 得 到 应 用 和 建 
立 。 关 系 模型 通过 使 用 关键 字 和 外 键 在 不 同行 的 数据 间 建 立 关 联 。 关 系 模型 自 带 一 种 结构 化 
查询 语言 (SQL )， 这 种 语言 作为 程序 和 数据 间 的 接口 语言 而 得 到 广泛 应 用 。 

图 13-2 表 示 了 一 个 标准 的 关系 型 数据 库 设计 。 








图 13-2 一 个 关系 型 数据 库 设 计 
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如 图 13-2 所 示 ， 有 几 种 不 同 的 数据 表 ， 通 过 一 系列 外 键 关 键 字 相 互 关联 。 外 键 关键 字 关 
联 是 指 在 两 张 数据 表 中 存在 同一 数据 单元 的 基本 关联 ， 如 图 13-3 所 示 。 

通过 这 个 相同 的 数据 单元 ， 将 两 行 以 上 更 多 行 的 数据 联系 起 来 。 例 如 ， 
假设 有 两 行 数据 的 同一 列 上 都 有 值 “Bill Inmon”。 这 两 行 就 通过 这 个 公共 值 
关联 起 来 。 

关系 型 数据 以 一 种 称 为 “标准 化 ”的 形式 存在 。 数 据 标准 化 是 指数 据 库 
设计 会 使 数据 分 解 成 非常 低 的 粒度 级 。 标 准 化 的 数据 以 一 种 孤立 模式 存在 ， 
这 种 情况 下 对 数据 表 里 的 数据 关系 要 求 很 严格 。 当 进行 标准 化 的 时 候 ， 表 中 
的 数据 只 能 与 这 张 表 里 的 其 他 数据 关联 。 标 准 化 基本 分 为 三 级 : 第 一 级 标准 “图 13-3 一 个 外 
形式 ， 第 二 级 标准 形式 和 第 三 级 标准 形式 。 键 关键 字 关联 

数据 仓库 的 数据 库 设计 的 关系 模型 的 取 值 是 有 规律 的 ,并且 涵义 明确 ， 只 使 用 标准 化 数 
据 的 细节 级 数据 。 也 就 是 说 ， 通 过 关系 模型 产生 的 数据 仓库 的 设计 是 很 灵活 的 。 基 于 设计 的 
数据 库 起 初 可 以 是 一 种 方式 ， 当 根据 关系 模型 设计 后 又 形成 另 一 种 形式 。 数 据 元 可 以 以 多 种 
方式 重新 赋值 。 灵 活性 是 关系 模型 最 大 的 优势 。 其 次 是 多 动能 性 。 因 为 细节 数据 需要 被 收集 
到 一 起 并 且 能 够 结合 ， 因 此 基于 关系 模型 的 数据 仓库 的 设计 可 以 支持 数据 的 多 种 视图 。 


13.2 多 维 模型 


建立 数据 仓库 的 另 一 种 数据 库 设 计 方 法 通常 认为 是 多 维 模型 方法 。 多 维 模型 方法 也 叫做 
星 形 连接 。 多 维 模型 方法 的 支持 者 是 Ralph Kimball 博 士 。 数 据 库 设 计 多 维 模型 方法 的 中 心 是 
星 形 连接 ， 如 图 13-4 所 示 。 

注释 ”关于 多 维 数据 库 设 计 Kimball 方 法 更 详细 的 内 容 请 参看 Kimball 

博士 的 相关 书籍 和 文章 。 

之 所 以 称 为 星 形 连接 是 因为 它 的 表示 方法 是 以 一 颗 “ 星 ”为 中 心 ， 至 
周围 围绕 着 其 他 数据 结构 。 图 13-4 星 形 连接 

如 图 13-5 所 示 ， 星 形 连接 包含 多 种 不 同 成 分 。 

图 13-5 表 明 在 星 形 连接 的 中 心 是 一 张 事实 表 。 事 实 表 是 包含 大 量 数据 值 的 一 种 结构 。 事 
实 表 的 周围 是 维 表 ， 用 来 描述 事实 表 的 某 个 重要 方面 。 维 表 里 的 数据 量 要 比 事实 表 里 的 少 。 











事实 表 
图 13-5 星 形 连接 的 组 成 
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事实 表 中 的 很 多 典型 值 可 能 是 某 一 部 分 的 命令 。 事 实 表 也 可 能 包含 一 个 顾客 的 来 访 次 数 ， 
或 者 代表 某 次 银行 交易 。 总 之 ， 事 实 表 包含 的 是 那些 多 次 出 现 的 数据 。 维 表 包 含 相关 的 但 独 
立 的 信息 如 公司 日 程 表 、 公 司 价格 表 、 存 储 位 置 、 平 均 订单 出 货 量 等 等 。 维 表 表 示 一 些 与 事 
实 表 相 关 的 重要 的 但 起 辅助 作用 的 信息 。 事 实 表 与 维 表 通过 存在 的 公共 数据 单元 相关 联 。 例 
如 ， 事 实 表 包 含 数据 “第 21 周 "。 维 表 中 则 有 关于 “第 21 周 ”的 信息 。 例 如 ， 在 维 表 中 第 21 周 
可 能 是 4 月 19 日 到 4 月 26 日 。 并 且 维 表 中 还 会 继续 表述 第 21 周 没有 节假日 ， 是 公司 报告 时 期 的 
第 三 周 。 


13.3 雪花 结构 


通常 ， 星 形 连 接 只 包含 一 张 事实 表 。 但 是 在 数据 库 设计 中 要 创建 一 种 雪花 结构 的 复合 结 
构 需 要 多 张 事实 表 结合 。 图 13-6 描 绘 了 一 个 雪花 结构 。 





图 13-6 雪花 结构 


在 雪花 结构 中 ,不 同 的 事实 表 通 过 共享 一 个 或 多 个 公共 维 表 连 接 起 来 。 有 时 称 这 些 共享 
的 维 表 为 一 致 维 表 。 雪 花 结构 隐 含 的 另 一 个 想法 是 将 事实 表 和 维 表 结合 起 来 ， 形 成 一 个 类 似 
于 雪花 结构 的 形式 。 

多 维 模型 设计 的 最 大 优点 在 于 访问 的 高 效 性 。 当 设计 适当 时 ， 通 过 星 形 连 接 将 数据 传递 
给 最 终 用 户 是 非常 高 效 的 。 为 了 提高 传递 信息 的 效率 ， 必 须 收 集 并 吸收 最 终 用 户 的 请 求 。 最 
终 用 户 使 用 数据 的 过 程 是 要 定义 什么 样 的 多 维 结构 的 核心 。 一 旦 清楚 了 最 终 用 户 的 请 求 ， 这 
些 请 求 就 可 以 用 来 最 终 确定 星 形 连接 ， 形 成 最 理想 的 结构 。 


13.4 两 种 模型 的 区 别 


作为 数据 仓库 设计 的 基础 ， 星 形 连 接 和 关系 型 结构 两 者 之 间 存 在 很 多 不 同 。 最 重要 的 区 
别 是 在 灵活 性 和 性 能 方面 。 关 系 模型 具有 高 灵活 性 ， 但 是 对 用 户 来 说 在 性 能 方面 却 不 是 理想 
的 。 多 维 模型 在 满足 用 户 需求 方面 是 非常 高 效 的 ， 但 是 灵活 性 不 好 。 

这 两 种 数据 库 设 计 方法 的 另 一 重要 区 别 在 于 设计 的 范围 不 同 。 必 然 地 ， 多 维 设 计 只 能 在 有 
限 的 范围 内 进行 。 在 这 种 方法 中 ， 是 通过 请 求 过 程 建立 模型 ， 当 收集 到 很 多 请 求 过 程 时 设计 
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会 被 中 断 。 也 就 是 说 ， 数 据 库 设 计 只 能 在 一 组 请 求 过 程 下 得 到 最 优化 。 如 果 所 有 不 同 组 请 求 
全 部 加 入 到 设计 当中 ， 最 优化 变 得 毫 无 意义 。 因 此 ， 从 性 能 上 优化 数据 库 设 计 只 有 一 种 方法 。 

当 使 用 关系 模型 时 ， 在 性 能 方面 没有 特别 的 优化 方法 。 既 然 关系 模型 要 求 数据 以 最 低 粒 
度 级 存储 ， 那 么 就 可 以 无 限制 地 添加 新 数据 。 很 显然 ， 添 加 数据 到 关系 模型 永远 也 不 会 停止 。 
正 因为 这 样 ， 关 系 模型 适合 于 大 范围 数据 (如 一 个 企业 模型 )， 而 多 维 模型 适用 于 小 范围 数据 
(如 一 个 部 门 或 甚至 一 个 子 部 门 )。 


13.4.1 区 别 的 起 源 
多 维 模型 和 关系 模型 区 别 的 产生 可 以 追溯 到 模型 自身 的 最 初 形成 过 程 。 图 13-7 给 出 了 模 
型 是 如 何 形成 的 。 


图 13-7 表 明 ， 关 系 环 境 是 通过 企业 数据 模型 设计 出 来 的 。 星 形 连 接 或 多 维 模型 是 根据 最 
终 用 户 的 请 求 塑造 的 。 换 句 话说， 关系 模型 通过 纯 数 据 模型 和 其 他 模型 设计 ， 而 多 维 模型 通 
过 处 理 请 求 塑造 。 两 者 在 设计 模式 上 的 区 别 导致 了 儿 方 面 细微 但 却 重要 的 结果 。 





图 13-7 关系 模型 由 数据 模型 设计 而 来 。 星 形 连 接 根 据 用 户 请 求 塑造 


第 一 点 是 在 适用 性 方面 。 由 于 关系 模型 通过 抽象 数据 形成 ， 所 以 模型 自身 非常 灵活 。 但 
是 关系 模型 的 这 种 灵活 性 ， 对 于 直接 数据 访问 的 执行 却 不 是 最 优化 的 。 如 果 想 得 到 一 个 高 性 
能 的 关系 模型 ， 最 佳 的 方法 是 从 模型 中 抽取 出 数据 ， 并 重新 构造 一 种 适合 于 快速 访问 的 模式 。 
尽管 关系 模型 的 性 能 有 限 ， 但 是 既然 它 支持 数据 重建 ， 那 么 也 有 利于 数据 的 非 直接 访问 的 。 

另 一 方面 ， 多 维 模型 在 直接 访问 数据 方面 是 快速 而 高 效 的 。 与 关系 模型 支持 非 直接 数据 
存 取 相 反 ， 多 维 模式 支持 直接 数据 存 取 。 

直接 数据 访问 和 间接 数据 访问 之 间 的 区 别 看 起 来 似乎 不 重要 ， 但 并 非 如 此 。 从 体系 结构 
观点 来 看 ， 在 数据 仓库 设计 基础 方面 关系 模型 是 更 好 地 支持 数据 仓库 的 模式 。 其 原因 是 ， 数 
据 仓库 需要 根据 不 同 的 议程 和 多 种 观察 数据 的 方式 来 支持 许多 不 同 的 用 户 组 。 也 就 是 说 ， 数 
据 仓库 对 于 访问 已 给 定 的 用 户 并 不 是 最 佳 的 。 相 反 ， 数 据 仓库 可 以 以 多 种 方式 支持 多 个 不 同 
用 户 。 

关系 模型 和 多 维 模型 在 起 源 上 的 第 二 点 细微 差别 是 关系 模型 隐 含 的 数据 模型 有 着 非常 高 
的 抽象 级 ， 而 多 维 模型 包含 的 处 理 模型 却 不 是 抽象 的 。 因 为 关系 模型 所 处 的 抽象 级 ， 它 可 以 
支持 很 多 用 户 。 多 维 模型 有 非常 明确 的 处 理 请 求 ， 所 以 ， 它 只 能 支持 一 些 特 定 的 需求 。 然 而 ， 
如 果 多 维 模型 设计 的 好 ,还 是 能 够 很 好 地 支持 处 理 请 求 的 : 


13.4.2 重建 关系 型 数据 
关系 模型 是 如 何 支持 构造 和 重建 的 多 种 形式 的 数据 的 呢 2 图 13=8 给 出 巴 二 个 关系 型 数据 
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的 基本 结构 。 

在 这 个 数据 结构 中 ， 根 据 关系 数据 库 中 的 基本 数据 
创建 新 文件 。 关 系 型 数据 实质 上 是 指 非 元 余 的 ， 以 最 
简单 的 形式 组 织 起 来 的 基本 数据 。 因 为 可 以 在 关系 型 
文件 中 找到 细节 粒度 级 的 数据 ， 所 以 从 其 他 相关 的 关 
系 表 中 抽取 数据 并 创建 一 张 用 户 表 就 很 简单 了 。 用 户 
表 是 根据 一 组 用 户 的 特定 需求 创建 。 一 旦 设计 并 创建 
后 ， 就 可 以 对 用 户 表 进 行 高 效 访问 。 





如 果 还 需要 另 一 张 用 户 表 ， 就 需 再 次 访问 关系 表 并 yy py 四 

创建 一 张 新 的 用 户 表 。 同 一 张 关系 表 可 以 多 次 重复 用 = 

来 创建 不 同 的 用 户 表 。 
结合 多 张 关系 表 来 创建 新 的 关系 表 是 很 简单 的 ， 原 

因 如 下 : 图 13-8 关系 模型 中 的 基本 数据 能 够 根据 
。 数 据 以 最 低 粒度 级 和 标准 化 形式 存储 。 需要 以 各 种 形式 构造 和 重建 


。 关 系 表 间 的 关系 已 经 定义 好 并 且 包 含 一 个 含有 外 键 的 关键 字 表 。 

。 新 表 可 以 对 关系 表 中 的 基本 数据 集 定义 新 的 汇总 和 筛选 标准 。 

正 是 由 于 以 上 原因 , 可 使 用 关系 型 数据 和 关系 表 作为 一 种 "信息 腻子 ”(information putty )。 
也 就 是 说 可 以 很 简单 地 以 一 种 形式 创建 关系 表 ， 再 以 另 一 种 形式 重新 塑造 这 些 表 ， 这 样 做 对 
数据 仓库 环境 来 说 是 非常 理想 的 。 


13.4.3 数据 的 直接 访问 和 间接 访问 


根据 以 上 讨论 过 的 原因 ， 很 明显 ， 关 系 模型 适合 数据 的 间接 访问 而 多 维 模式 利于 数据 的 
直接 访问 。 图 13-9 表 明了 这 种 关系 。 





图 13-9 星 形 连接 利于 直接 最 终 用 户 访问 。 关 系 模型 利于 间接 用 户 访问 


星 形 连 接 也 就 是 多 维 方法 适用 于 只 对 一 组 用 户 做 最 优化 的 数据 访问 ， 这 个 过 程 需要 消耗 
一 定 的 费用 。 而 不 属于 这 组 的 用 户 则 需要 支付 低 于 最 优化 性 能 的 费用 。 当 然 ， 要 使 一 组 新 用 
户 所 需要 的 数据 有 效 也 是 个 问题 ， 这 组 新 用 户 并 不 是 创建 星 形 连接 的 最 初 那 组 用 户 。 也 就 是 
说 ,适用 于 一 组 用 户 的 星 形 连接 所 包含 的 数据 不 能 保证 满足 另 一 组 用 户 的 需求 。 图 13-10 表 明 
星 形 连 接 无 法 同时 满足 多 组 不 同 用 户 的 需求 。 
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图 13-10 星 形 连接 是 以 其 他 所 有 组 的 用 户 为 代价 来 优化 一 组 用 户 的 数据 访问 


13.4.4 支持 将 来 未 知 的 需求 


只 能 服务 现 有 的 用 户 组 不 是 仅 存 的 问题 。 在 支持 将 来 未 知 的 需求 和 用 户 方面 也 存在 问题 。 
关系 模型 中 存放 的 粒度 级 数据 好 比 原子 。 原 子 可 以 组 合 出 许多 不 同 的 物质 。 原 子 的 奥秘 在 于 
其 粒度 级 。 由 于 原子 有 如 此 好 的 特性 ， 可 以 在 近 平 无 穷 的 方法 中 使 用 。 类 似 地 ， 关 系 模型 中 
的 粒度 级 数据 也 可 以 用 于 支持 未 来 未 知 信息 的 需求 。 图 13-11 表 明了 这 种 能 力 。 


图 13-11 当 一 组 新 需求 出 现 后 ， 关 系 模型 提供 了 再 度 使 用 的 基础 
13.4.5 支持 适度 变化 的 需求 


作为 数据 仓库 的 基础 ， 关 系 模型 的 另 一 优点 就 是 具有 适度 变化 的 能 力 。 关 系 模型 设计 以 
间接 方式 使 用 。 也 就 是 说 ， 数 据 仓库 的 直接 用 户 访问 的 是 由 关系 模型 转化 而 来 的 数据 而 不 是 
关系 模型 本 身 的 数据 。 当 发 生变 化 的 时 候 ， 因 为 不 同 的 数据 仓库 的 用 户 访问 不 同 的 数据 库 ， 
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所 以 影响 是 最 小 的 。 


也 就 是 说 ， 当 用 户 A 想 要 改变 数据 ， 那 么 这 种 改变 在 支持 A 需求 的 数据 库 上 进行 。 也 许 根 
本 没有 涉及 关系 模型 。 当 对 用 户 A 做 改动 时 ， 影 响 用 户 B、 用 户 C 和 用 户 D 的 几率 是 非常 小 的 。 
图 13-12 表 明了 这 种 影响 。 





图 13-12 当 需 要 为 一 组 用 户 改动 数据 时 ， 这 种 改动 不 会 影响 到 其 他 用 户 


星 形 连 接 即 多 维 方法 却 不 具有 适度 变化 的 能 力 这 一 特征 。 多 维 数据 库 设计 是 很 脆弱 的 ， 
是 很 多 处 理 请 求 聚集 在 一 起 的 结果 。 当 处 理 请 求 变 化 时 ， 多 维 数据 库 的 设计 未 必 能 够 适度 地 


变化 。 数 据 一 旦 以 多 维 数据 库 形式 建立 ， 要 想 再 改动 它 就 很 难 了 。 图 13-13 表 明 一 旦 设计 完成 ， 
多 维 型 数据 就 会 被 固定 住 。 





图 13-13 一 旦 数据 设计 完成 并 开发 为 星 形 连 接 形式 ， 数 据 就 被 
固定 住 ， 很 难 再 改变 或 作为 新 需求 被 创建 


根据 上 面 讨论 过 的 原因 可 以 看 出 ， 关 系 模型 是 数据 仓库 设计 的 最 佳 基础 。 图 13-14 表 明了 
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图 13-14 关系 模型 对 数据 仓库 是 理想 的 基础 ， 而 星 形 连 接 对 于 数据 集 市 是 最 佳 的 


13.5 独立 数据 集 市 


多 维 模型 的 另 一 个 特点 是 通过 -种 称 作 独 立 数据 集 市 方法 联合 起 来 。 数据 集 市 是 用 来 表 
示 服 务 一 组 特定 群体 (如 财会 部 门 或 者 金融 部 门 ) 的 分 析 需 
求 的 一 种 数据 结构 。 独 立 数据 集 市 是 指 直接 通过 历史 应 用 创 Cs 
建 的 数据 集 市 。 图 13-15 给 出 了 一 个 独立 数据 集 市。 入 

由 于 独立 数据 集 市 是 解决 信息 问题 的 直接 方法 ， 所 以 很 i 
受 欢 迎 。 独 立 数据 集 市 可 以 由 单一 的 部 门 创建 ， 而 不 考虑 其 SS ye 
他 部 门 或 中 央 [T 组 织 。 建立 独 立 数据 集 市 也 不 需要 有 “全 局 。 。 
思想 ”考虑 。 独 立 数据 集 市 表示 企业 全 部 DSS 请 求 的 一 个 子 
集 。 建 立 独立 数据 集 市 的 费用 不 高 ， 并 且 人 允许 企业 掌控 自己 
的 信息 。 这 些 只 是 独立 数据 集 市 受 欢 迎 的 几 个 因素 . 图 13-15 独立 数据 集 市 

观察 图 13-15， 你 会 发 现 多 维 技术 要 求 建立 独立 数据 集 市 。 

在 数据 结构 上 与 独立 数据 集 市 相对 应 的 是 从 属 数据 集 市 2 图 13-16 所 示 为 一 个 从 属 数据 
集 市 。 \ 

与 独立 数据 集 市 相对 应 的 是 从 属 数据 集 市 。 从 属 数 据 集 市 是 利用 来 自 数据 仓库 的 数据 建 
立 的 。 它 的 数据 源 不 依赖 于 历史 数据 或 操作 型 数据 ， 只 依赖 于 数据 仓库 。 从 属 数据 集 市 要 求 
预先 计划 和 投资 ， 并 需要 “全 局 考 虚 ”。 此 外 ， 从 属 数据 集 市 要 求 多 个 用 户 共享 他 们 创建 数据 
仓库 时 的 信息 需求 。 总 之 ， 从 属 数据 集 市 要 求 有 预先 的 计划 、 长 期 的 观察 、 全 局 的 分 析 和 企 
业 各 不 同 部 门 对 需求 分 析 的 合作 与 协调 。 
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图 13-16 从 属 数据 集 市 


13.6 建立 独立 数据 集 市 


为 了 表明 独立 数据 集 市 长 期 以 来 遇 到 的 困难 ， 考 虑 下 面 的 过 程 。 
最 初 建立 独立 数据 集 市 的 情况 。 


最 终 用 户 是 很 高 兴建 立 独 立 数据 集 市 的 。 因 为 他 们 可 以 获 Ce 


取信 息 ， 拥 有 自己 的 数据 和 分 析 ， 还 可 以 获取 他 们 从 没 见 到 过 
的 信息 。 他 们 想 知道 对 独立 数据 集 市 以 前 的 评价 如 何 。 只 要 存 
在 一 个 独立 数据 集 市 ， 就 完全 没有 问题 了 。 

但 是 从 来 都 不 会 只 存在 一 个 数据 集 市 。 

当 其 他 用 户 昕 说 独立 数据 集 市 成 功 的 消息 后 ， 还 没有 数据 
集 市 的 部 门 就 会 建立 自己 的 独立 数据 集 市 。 图 13-18 表 示 第 二 个 
独立 数据 集 市 的 出 现 。 





Ce 加 人 融 250000 美 元 
和 加 销售 1000 000 美 元 
a3 

0 


4 
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图 13-17 给 出 了 一 个 企业 


DO 





图 13-17 第 一 个 独立 数据 
集 市 是 成 功 的 


图 13-18 第 二 个 独立 数据 集 市 也 是 成 功 的 。 但 是 会 发 现 对 于 类 似 的 问题 答案 却 不 一 臻 
第 二 组 用 户 也 很 满意 他 们 的 独立 数据 集 市 。 一 些 人 注意 到 两 个 数据 集 市 之 间 的 信息 不 统 
一 ， 也 不 是 同步 的 。 但 是 在 新 数据 集 市 带 来 的 所 有 好 处 面前 ， 这 些 似乎 算 不 上 问题 。 
起 初 几 个 独立 数据 集 市 的 成 功 增长 了 继续 发 展 的 势头 。 现 在 又 一 个 部 门 希望 建立 自己 的 


独立 数据 集 市 。 这 样 ， 就 创建 了 第 三 个 独立 数据 集 市 (如 图 13-19 )。 


一 旦 建成 后 ， 最 终 用 户 


就 会 很 高 兴 。 这 时 ， 有 些 人 注意 到 关于 数据 取 值 出 现 了 第 三 个 矛盾 的 观点 。 并 且 还 注意 到 相 
同 的 细 市 数据 被 每 个 新 建 的 独立 数据 集 市 收集 。 事 实 上 ， 对 于 每 个 独立 数据 集 市 都 存在 一 个 


不 断 增 长 的 细节 数据 元 余 的 问题 。 
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站 gp。 财 改 250 000 美 元 
A Sy 销售 1000 000 美 元 


Ee 
图 13-19 加 入 了 第 三 个 独立 数据 集 市 。 现 在 同一 细节 数据 上 出 现 了 三 种 观点 。 
每 增加 一 个 数据 集 市 ， 就 出 现 一 次 相同 的 细节 数据 


使 用 独立 数据 集 市 的 愿望 很 强烈 。 一 个 新 的 部 门 又 将 其 独立 数据 集 市 加 入 到 原 有 数据 集 
市 的 集合 当中 (如 图 13-20)。 又 多 了 一 种 对 业务 情况 描述 的 不 同 观点 。 并 增加 了 更 多 的 元 余 
细节 数据 。 现 在 ， 接 口 程序 的 数量 也 超过 了 正常 值 。 不 仅 需要 大 量 资源 来 建立 接口 程序 ， 维 
护 这 些 程序 也 变 成 了 负担 。 到 了 要 结束 的 时 候 ， 执 行 接口 程序 的 在 线 资源 开始 变 得 很 难 管理 ， 
因为 要 在 有 限 的 时 间 内 执行 很 多 程序 。 


Deg 财政 250 000 美 元 
外 Di 销售 1000 000 美 元 


SX Daw 账目 750 000 美 元 


一 一 , 门 8 市 3 者 销 1500 000 半 元 
图 13-20 加 入 第 四 个 数据 集 市 。 又 增加 了 一 个 不 统一 的 观点 。 收 集 了 更 多 的 细节 
数据 ， 变 得 更 加 元 余 。 大 量 的 主机 接口 程序 需要 建立 和 维护 


尽管 独立 数据 集 市 方法 存在 以 上 很 多 的 缺点 ， 但 是 发 展 的 势头 仍 在 继续 。 如 图 13-21 所 示 
工程 方面 也 想 建立 自己 的 数据 集 市 。 但 是 开始 后 ， 他 们 发 现 部 门 先前 建立 的 数据 集 市 所 做 的 
工作 都 不 能 再 利用 。 新 部 门 不 得 不 重新 建立 数据 集 市 。 并 且 他 们 对 先前 数据 集 市 用 户 抽取 出 
来 的 相同 的 细节 数据 又 要 再 一 次 备份 。 新 数据 集 市 的 用 户 对 同一 业务 情况 又 加 入 了 一 种 新 观 
点 。 新 部 门 需要 添加 又 一 组 接口 程序 并 进行 维护 。 新 部 门 还 要 为 执行 自己 的 程序 而 争夺 资源 。 


了 一 由 财 ” 政 250 000 美 元 
om 销售“1000 000 美 元 
< 啤 


Xv Dem 账 ” 目 750 000 美 元 


一 一 ~ 口 遇 市场 音 销 1500 000 美 元 


Dre 


图 13-21 工程 上 想 建立 一 个 数据 集 市。 但 是 既 没 有 建立 的 基础 也 没有 可 访问 的 历史 数据 ， 
所 有 的 集成 必须 重新 进行 (一 次 )， 并 且 没 有 任何 先前 的 集成 结果 可 以 利用 
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当 建立 了 定数 量 的 独立 数据 集 市 后 ， 独 立 数据 集 市 的 问题 就 变 得 很 明显 了 。 独 立 数据 
集 市 只 适用 于 短 的 、 快 速 的 方案 。 但 是 经 过 长 期 观察 后 ， 可 以 
很 明 显 地 看 出 ， 独 立 数据 集 市 不 适合 于 解决 企业 中 的 信息 问题 。 ”Cs 
当然 ， 如 果 企业 采用 了 从 属 数据 集 市 ， 并 在 建立 任何 数据 和 AN 
集 市 之 前 先 创建 了 一 个 数据 仓库 ， 那 么 ， 独 立 数据 集 市 固有 的 7 
那些 体系 结构 方面 的 问题 就 不 会 出 现 了 。 如 果 出 现 了 由 数据 他 ”SA 二 一 蝇 
库 产生 的 从 属 数据 集 市 ， 那 么 ， 这 个 数据 集 市 将 是 对 数据 的 再 ”Cr 7 NS 
利用 和 一 些 有 限 的 已 写 好 的 接口 程序 。 数 据 集 市 还 是 会 存在 不 \ DD 


历史 数据 
同 的 观点 ， 但 是 这 些 观 点 是 可 调和 的 。 图 13-22 表 明 ， 如 果 存 在 


从 属 数据 集 市 和 数据 仓库 ， 独 立 数据 集 市 的 体系 结构 问题 就 不 览 口 
全 细节 数据 ， 
再 会 出 更 了 。 粒度 级 数据 


换 句 话说 ， 独 立 数据 集 市 表示 的 是 不 需要 顾及 全 局 及 全 景 。 图 13 27 从 属 数据 集 市 环境 把 
的 一 个 短期 的 、 有 限 范围 的 解决 方法 。 另 一 方面 ， 从 属 数据 集 。 ”独立 数据 集 市 存在 的 所 有 
市 则 要 求 一 个 长 期 和 全 局 的 展望 。 但 是 独立 数据 集 市 不 能 为 企 问题 都 解决 了 
业 信息 提供 一 个 坚实 的 基础 ， 而 从 属 数据 集 市 却 能 为 信息 决策 提供 一 个 真正 的 长 期 基础 。 


13.7 小 结 


本 章 讨论 了 用 于 数据 仓库 的 数据 库 设 计 的 两 种 基本 模型 : 关系 模型 和 多 维 模型 (也 称 星 
形 连 接 )。 关 系 模型 存在 很 多 优点 ， 所 以 更 适 于 数据 仓库 的 设计 。 暴 初 是 因为 关系 模型 灵活 ， 
能 满足 多 个 企业 的 信息 需求 。 而 多 维 模型 更 适用 于 仅 服务 一 组 用 户 的 需求 ， 而 以 其 他 用 户 为 
代价 。 

关系 模型 对 数据 仓库 的 间接 访问 是 最 佳 的 ， 而 多 维 模型 用 于 服务 数据 仓库 的 直接 用 户 的 
需求 时 最 理想 。 

多 维 模型 的 另 一 特点 是 在 数据 集 市 中 进行 分 析 时 ， 能 够 直接 访问 历史 和 操作 型 数据 。 数 
据 集 市 分 为 两 类 : 独立 数据 集 市 和 从 属 数据 集 市 。 独 立 数据 集 市 存在 很 多 问题 。 而 这 些 问 题 
只 有 当 建 立 起 一 定数 目的 独立 数据 集 市 后 才 会 变 得 明显 。 

独立 数据 集 市 存在 以 下 问题 : 

“ 不 提供 数据 重用 平台 。 

* 不 提供 数据 一 致 性 的 基础 ， 

* 不 提供 单一 历史 接口 程序 基础 。 

* 需要 每 一 个 独立 数据 集 市 创建 自己 的 细节 数据 集 ， 不 幸 的 是 ， 其 他 的 独立 数据 集 市 会 建 
立 大 量 的 元 余数 据 。 

幸好 ， 从 属 数据 集 市 可 以 从 数据 仓库 提取 数据 ， 而 不 存在 独立 数据 集 市 存在 的 体系 结构 
的 问题 。 
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此 章 将 涉及 许多 不 同 的 话题 ， 目 的 是 将 许多 概念 联系 起 来 ， 对 成 功 的 数据 仓库 来 说 非常 
重要 。 

数据 仓库 作为 企业 信息 工厂 (CIF) 和 商务 智能 的 核心 ,是 一 个 复杂 的 主题 ， 有 多 个 方面 。 
此 章 对 其 他 地 方 没 有 涉及 的 话题 展开 讨论 。 


14.1 最 终 用 户 的 需求 和 数据 仓库 


有 一 个 问题 人 们 经 常 问 到 ， 也 经 常 误解 ， 就 是 建造 数据 仓库 的 需求 从 何 而 来 ”实际 上 ， 
建造 数据 仓库 的 需求 来 自 于 一 个 数据 模型 。 尽 管 最 终 用 户 也 会 间接 地 使 用 数据 仓库 ， 但 是 他 
们 的 需求 只 是 其 中 的 一 部 分 。 为 了 理解 最 终 用 户 如 何 使 用 数据 仓库 中 的 数据 ， 我 们 来 看 设计 
数据 仓库 时 的 如 下 考虑 。 


14.1.1 数据 仓库 和 数据 模型 


数据 仓库 是 由 数据 模型 定型 的 。 数 据 模型 分 为 不 同 的 层 ， 典 型 地 分 为 高 层 数 据 模型 ， 中 
层 数据 模型 和 底层 数据 模型 。 

高 层 数据 模型 显示 出 数据 仓库 的 不 同 主题 域 是 如 何 分 割 的 。 典 型 的 高 层 主题 域 是 客户 ， 
产品 ， 装 运 情况 ， 订 单 ， 部 件数 目 等 等 。 

中 层 数据 模型 确定 键 、 属 性 、 关 系 和 数据 仓库 的 其 他 细节 。 中 层 数 据 模型 使 高 层 数据 模 
型 “有 血 有 肉 ”。 

底层 数据 模型 用 来 进行 数据 仓库 的 物理 设计 。 在 这 一 层 上 会 进行 分 区 ， 对 DBMS 定 义 外 
键 关系 ， 定 义 索引 以 及 完成 其 他 物理 方面 的 设计 。 

图 14-1 显 示 数 据 模型 中 不 同 的 关系 以 及 数据 模型 如 何 与 数据 仓库 相关 。 


高 层 数据 模型 
中 层 数据 模型 “和 


底层 数据 模型 





图 14-1 数据 模型 如 何 构成 
14.1.2 关系 型 的 基础 
现在 考虑 数据 仓库 如 何 使 用 。 数据 仓库 的 关系 控件 用 来 支持 对 数据 的 其 他 视图 。 如 图 14-2， 
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数据 仓库 的 关系 基础 用 来 创建 数据 的 其 他 视图 与 组 合 。 

关系 型 数据 库 被 创建 后 ( 即 形成 了 数据 仓库 的 核心 )， 最 终 用 户 的 需要 就 用 来 指示 数据 应 
该 如 何 重 组 。 因 此 ， 最 终 用 户 的 需要 确实 塑造 了 数据 仓库 ， 至 少 通过 间接 的 方式 如 此 。 颗 粒 ， 
即 用 来 支持 最 终 用 户 需要 的 基本 数据 必须 存在 于 数据 仓库 之 中 ， 以 满足 用 户 需求 。 





图 14-2 在 数据 仓库 中 ， 最 终 用 户 的 需求 并 不 是 直接 被 满足 


14.1.3 数据 仓库 和 统计 处 理 


郑 虑 下 ， 当 机器 处 理 大 量 的 统计 分 析 时 将 会 发 生 什么 〈 例 如 浏览 器 做 出 一 个 请 求 ) ? 
假如 有 一 个 机 器 用 来 满足 正常 的 数据 仓库 工作 要 求 ， 人 们 (农场 主 ) 周期 性 地 拖 出 少量 的 数 
据 。 有 一 天 ， 机 器 接 到 有 关 访问 1 亿 行 数据 的 请 求 ， 还 要 做 繁重 的 统计 分 析 。 这 个 请 求 要 求 对 
数据 排序 ， 访 问 每 行 ， 创 建 计算 ， 接 着 再 对 基础 数据 进行 计算 。 当 此 请 求 完成 后 ， 输 入 另 一 
组 参数 ， 接 着 重复 这 个 过 程 。 

接 到 一 个 这 样 的 请 求 ， 普 通 的 数据 仓库 将 会 怎样 处 理 ? 通常 情况 下 ， 普 通 的 处 理 过 程 进 
入 死机 。 处 理 过 程 进入 死机 后 会 发 生 什 么 ?最 终 用 户 很 快 就 会 不 满 。 

事实 上 ， 普 通 数据 访问 和 繁重 的 统计 处 理 不 能 非常 好 地 融合 。 当 对 机 器 资源 的 竞争 非常 
强烈 时 ， 有 的 人 可 能 要 受罪 了 。 

无 论 有 没有 人 会 受罪 ， 有 一 件 事 情 是 毋庸 置疑 的 ， 那 就 是 对 数据 仓库 中 的 数据 进行 常规 
分 析 处 理 和 统计 分 析 的 请 求 是 有 效 的 。 问 题 是 ， 用 常规 的 方法 对 这 两 种 处 理 进行 融合 会 对 机 
器 资源 造成 竞争 。 


14.2 数据 仓库 内 的 资源 竞争 


如 果 这 种 资源 竞争 每 年 发 生 一 次 ， 可 以 对 统计 处 理 做 适当 的 计划 ， 以 避免 产生 问题 。 如 
果 是 每 个 季度 发 生 一 次 ， 可 能 还 有 些 时 刻 可 以 处 理 统 计 分 析 ， 只 是 注意 不 要 超过 机 器 的 处 理 
能 力 。 如 果 是 每 个 月 发 生 一 次 ， 将 很 难 进行 计划 。 如 果 是 每 个 星期 发 生 一 次 ， 几 乎 不 可 能 制 
定时 间 表 ， 以 使 统计 分 析 在 适当 的 时 候 进 行 。 如 果 是 每 天 发 生 一 次 ， 几 乎 不 可 能 计划 时 间 避 
免 冲 突 了 。 

竞争 的 问题 到 最 后 归结 为 一 个 竞争 周期 或 出 现 的 频率 问题 。 如 果 竞 争 出 现 不 频繁 ， 问 题 
就 很 小 。 如 果 出 现 频繁 ， 那 么 资源 竞争 就 会 成 为 一 个 大 问题 。 
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14.2.1 探查 型 数据 仓库 


当 对 资源 的 竞争 成 为 一 个 问题 时 ， 最 好 能 够 分 析 一 种 特殊 形式 的 数据 仓库 。 这 种 形式 称 
为 探查 型 数据 仓库 或 数据 挖 气 型 数据 仓库 。 
图 14-3 显 示 如 何 从 数据 仓库 建造 探查 型 数据 仓库 。 





探查 数据 仓库 /数据 挖掘 型 
图 14-3 探查 处 理 在 数据 仓库 之 外 进行 


探查 型 数据 仓库 为 处 理 繁 重 的 统计 分 析 提 供 基础 。 一 旦 探查 型 数据 仓库 建成 ， 数 据 仓库 
内 的 资源 竞争 将 不 再 是 一 个 问题 。 因 为 处 理 过 程 在 不 同 的 机 器 上 进行 ， 统 计 分 析 可 以 整 天 进 
行 ， 没 有 资源 竞争 。 统 计 处 理 在 一 处 进行 ， 对 数据 仓库 的 普通 数据 处 理 在 其 他 地 方 进 行 。 

但 是 创建 探查 型 数据 仓库 的 目的 ， 并 不 只 是 为 了 解决 资源 竞争 的 问题 。 

建造 探查 型 数据 仓库 另 一 个 原因 就 是 : 统计 分 析 技 术 和 其 他 种 类 的 分 析 技 术 非 常 的 不 同 ， 
有 必要 使 它们 的 执行 环境 分 离 。 环 境 分 离 以 后 ， 进 行 统计 处 理 的 用 户 就 会 从 其 他 进行 普通 分 
析 的 用 户 中 分 离 出 来 。 

建造 额外 的 探查 型 数据 仓库 另 一 个 目的 是 为 了 数据 库 的 设计 。 探 查 型 数据 仓库 的 数据 很 
少 是 从 数据 仓库 中 直接 复制 的 。 相 反 ， 探 查 型 数据 仓库 往往 从 数据 仓库 中 数据 的 一 个 子 集 开 
始 。 然 后 对 提取 的 数据 进行 重 铸 。 

对 数据 仓库 中 数据 典型 的 一 个 重 铸 ， 就 是 创建 一 个 所 谓 “ 便 利 区 ”。 便 利 区 是 用 来 简化 统 
计 分 析 的 。 例 如 ， 在 数据 仓库 环境 中 有 如 下 数据 元 素 : 

。 销 售 价 总 格 

。 税 

。 佣 金 

。 运 输 费 

假设 在 探查 环境 中 ， 想 对 净 销 售 额 进行 分 析 。 当 数据 进入 探查 环境 后 ， 最 好 把 数据 以 计 
算 结 果 的 形式 输入 ， 而 不 是 以 数据 仓库 的 方式 逐 字 地 输入 : 

净 销 售 额 三 销售 总 价格 一 ( 税 十 佣金 十 运费 ) 

如 果 能 在 探查 环境 创建 一 个 值 ( 即 净 销 售 额 )， 可 以 达到 如 下 目的 

。 数 据 只 可 计算 一 次 ， 这 样 可 以 节省 资源 。 

。 数 据 是 前 后 一 致 的 。 每 次 需要 计算 时 ， 进 行 的 都 是 相同 计算 。 

。 用 一 个 数据 元 素 代替 四 个 ， 可 以 节省 空间 。 

探查 型 数据 仓库 的 对 象 通常 是 项 目 。 就 是 说 当 得 到 项 目的 结果 以 后 ， 探 查 型 数据 仓库 就 
没有 用 了 。 数 据 仓库 是 为 长 远 的 目的 而 建立 的 ， 与 探查 型 数据 仓库 有 很 大 的 不 同 。 通 常情 况 
下 ， 数 据 仓库 并 不 是 建成 后 就 被 弃置 。 
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图 14-4 显 示 探 查 型 数据 仓库 的 一 些 特征 。 


探查 数据 

。 数 据 仓 库 的 子 集 
。 便 利 区 

。 历 史 性 

。 颗粒 

。 以 项 目 为 中 心 

。 临 时 ， 基 于 项 目 


图 14-4 探查 数据 的 本 质 





14.2.2 数据 挖 气 型 数据 仓库 


探查 型 数据 仓库 与 数据 挖掘 型 数据 仓库 有 些 相似 ， 但 是 还 是 有 少许 区 别 。 

探查 型 数据 仓库 的 主要 目的 是 为 了 创建 断言 ， 假 设 和 观测 。 从 数据 挖掘 型 数据 仓库 可 以 
知道 假设 的 真实 性 到 底 有 多 强 。 例 如 ， 分 析 师 可 能 会 看 看 探查 型 数据 仓库 中 的 一 些 数据 ， 然 
后 声明 “大 宗 的 销售 多 在 星期 三 进行 "。 由 于 用 户 在 探查 型 数据 仓库 中 能 看 见 的 实例 是 有 限 的 ， 
所 以 这 个 声明 对 他 们 来 讲 看 似 正确 。 

现在 假设 用 数据 挖掘 型 数据 仓库 来 分 析 不 同 天 的 销售 量 。 在 数据 挖掘 型 数据 中 ， 我 们 可 
以 得 到 很 多 很 多 的 销售 实例 。 分 析 的 结果 可 以 来 验证 大 宗 的 销售 是 不 是 多 在 星期 三 进行 。 

探查 型 数据 仓库 必须 包含 多 种 不 同 的 数据 类 型 ， 以 提供 有 广度 的 信息 。 数 据 挖 气 型 数据 
仓库 需要 有 深度 。 它 需要 为 要 分 析 的 对 象 积聚 尽 可 能 多 的 相关 信息 。 

探查 型 数据 仓库 与 数据 挖掘 型 数据 仓库 的 一 个 区 别 是 这 样 的 : 探查 型 数据 仓库 面向 广度 
进行 优化 ， 数 据 挖掘 型 数据 仓库 面向 深度 进行 优化 。 

因为 探查 型 数据 仓库 与 数据 挖掘 型 数据 仓库 的 区 别 很 小 ， 所 以 只 有 在 业务 复杂 的 公司 才 
进行 区 分 。 在 大 多 数 公司 里 ， 探 查 型 数据 仓库 提供 探查 和 挖掘 功能 。 


14.2.3 冻结 探查 型 数据 仓库 


探查 型 数据 仓库 有 一 个 特征 与 数据 仓库 完全 不 同 : 探查 型 数据 仓库 有 时 并 不 能 用 现今 的 
细节 数据 进行 更 新 。 相 反 ， 只 要 细节 数据 已 经 可 以 进入 仓库 ， 数 据 仓库 通常 的 情况 下 就 可 以 
有 规律 地 更 新 。 图 14-5 是 一 种 不 能 用 细节 数据 更 新 探查 
型 数据 仓库 的 情况 。 

在 图 14-5 中 ， 探 查 型 数据 仓库 不 能 快速 和 有 规律 地 更 





新 ， 主 要 原因 是 在 其 中 正 进行 启发 式 的 分 析 。 第 1 天 ， 分 下 
析出 的 结果 是 女士 们 每 月 花费 25 美 元 用 来 买 土 。 隔 了 一 , 图 
天 ， 新 的 数据 塞 到 探查 型 数据 仓库 里 面 。 另 一 个 分 析 结 

果 出 现 是 40 岁 以 下 的 女士 每 月 花费 在 新 鞋 上 的 钱 是 20 美 i 


is 


元 。 现 在 的 问题 是 : 这 两 个 结果 不 同 的 原因 ， 是 由 于 计 

图 14-5 很 多 情况 下 ， 由 于 要 进 和 
党 方法 和 数据 挑 适 方 式 耻 现 直 同 ， 还 是 由 于 新 加 和 的 教 2odis 反 本 ml 所 各 球 、 
据 对 分 析 结果 产生 影响 ”结果 无 从 知晓 。 不 能 及 时 更 新 
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在 进行 启发 式 分 析 时 ， 如 果 所 测试 的 算法 改变 ， 为 了 分 析 的 精确 性 ， 有 必要 使 数据 持续 
不 变 。 如 果 数 据 改变 ， 对 于 结果 的 改变 就 不 能 正确 的 解释 。 因 此 ， 有 时 不 能 用 新 的 数据 对 探 
查 型 数据 仓库 进行 更 新 。 


14.2.4 外 部 数据 和 探查 型 数据 仓库 
数据 仓库 和 探查 型 数据 仓库 还 有 一 个 很 大 的 不 同 :外 部 数据 很 容易 适应 探查 型 数据 仓库 ， 


但 很 难 适应 数据 仓库 ， 如 图 14-6 所 示 ， A 

在 探查 型 数据 仓库 中 使 用 外 部 数据 经 常 是 有 意义 的 。 
在 很 多 情况 下 ， 将 外 部 的 结果 和 内 部 的 结果 相 比较 , 会 “一 CES、 
产生 有 意思 的 信息 。 例 如 ， 如 果 发 现 公 司 的 收入 有 所 下 EE EJ 
降 ， 就 会 当 作 不 好 的 征兆 。 但 如 果真 实 的 情况 是 ,在 同 国 过 
时 期 整个 行业 的 收入 都 在 下 降 ， 而 且 下 降 率 更 大 ， 那 么 RS 
情况 可 能 就 没有 那么 精 糕 了 。 因 此 ， 将 内 部 产生 的 数据 
与 外 部 产生 的 数据 相 比较 ， 经 常会 柳暗花明 。 

由 于 较 强 的 集成 要 求 ， 使 外 部 数据 适应 数据 仓库 经 
常 比较 困难 。 很 多 情况 下 ， 外 部 数据 所 含 的 信息 深度 不 “图 14-6 外 部 数据 可 以 不 经 过 数据 仓库 
够 ， 混 合 在 数据 仓库 中 很 可 能 失去 适当 的 意义 。 因 此 ， 直接 进入 探查 型 数据 仓库 
对 外 部 数据 的 处 理 在 探查 型 数据 仓库 和 数据 仓库 中 非常 不 同 。 


14.3 同一 个 处 理 器 处 理 数据 集 市 和 数据 仓库 


有 时 有 这 样 一 个 问题 ， 即 一 个 或 多 个 数据 集 市 和 数据 仓库 是 否 通 过 同一 个 处 理 器 处 理 作 














_ 数据 仓 局 
数据 集 市 和 数据 仓库 
在 不 同 的 机 器 上 





数据 集 市 和 数据 仓库 
在 同一 个 机 器 上 


图 14-7 在 各 种 情况 下 ， 应 该 把 数据 集 市 和 数据 仓库 放 在 不 同 的 机 器 上 。 
实际 上 ， 各 个 数据 集 市 也 应 该 放 在 不 同 的 机 器 上 


一 般 来 讲 ， 将 一 个 或 多 个 数据 集 市 与 数据 仓库 通过 同一 个 处 理 器 处 理 是 可 能 的 。 但 是 这 
样 做 几乎 没有 一 点 意义 。 

将 数据 集 市 和 数据 仓库 放 在 不 同 的 机 器 上 就 有 意义 了 ， 原 因 如 下 : 

。 处 理 器 越 大 ， 价 格 就 越 高 。 将 数据 集 市 分 开 ， 放 在 其 他 小 一 点 的 机 器 上 ,那么 处 理 过 程 

的 花费 就 会 下 降 。 
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“数据 集 市 的 工作 与 数据 仓库 的 工作 相 分 离 ， 整 个 处 理 过 程 将 更 容易 管理 。 
“ 数据 集 市 的 工作 与 数据 仓库 的 工作 相 分 离 ， 对 容量 的 计划 就 会 更 加 容易 预测 和 管理 。 
* 数据 集 市 的 工作 与 数据 仓库 的 工作 相 分 离 后 ， 不 同 的 部 门 可 以 拥有 相应 的 数据 集 市 。 不 
同 的 部 门 拥有 相应 的 数据 集 市 ， 这 是 一 个 非常 有 力 的 概念 ， 会 从 组 织 的 角度 使 各 方 满意 。 
不 但 数据 集 市 的 工作 与 数据 仓库 的 工作 相 分 离 是 一 种 好 的 做 法 ， 各 个 数据 集 市 放 在 不 同 
的 机 器 上 也 有 意义 。 例如， 数据 集 市 ABC 在 机 器 123 上 ， 数 据 集 市 BCD 在 机 器 234 上 , 数据 集 
市 CDE 在 机 器 345 上 ,等 等 。 这 样 做 ， 数 据 仓 库 DSS 环 境 的 基本 处 理 周期 花费 会 进一步 下 降 。 


14.4 数据 的 生命 周期 

数据 进入 公司 并 在 公司 中 使 用 是 有 生命 周期 的 。 
将 数据 的 生命 周期 与 公司 中 的 不 同 技术 手段 相 结合 很 ( i 
有 意义 。 图 14-8 显 示 在 公司 中 数据 的 生命 周期 。 | 凡人 | 

图 14-8 显 示 册 数据 进入 公司 ， 或 被 公司 捕 。 通 。 人、 
常情 况 下 ， 事 件 或 交易 的 发 生 触发 数据 的 捕获 。 接 下 
来 ， 捕 获 的 数据 经 过 一 些 基本 的 编辑 和 范围 检查 。 数 与 其 他 应用 种 ] 
据 调 入 某 个 应 用 程序 中 ， 用 于 在 线 访问 。 典 型 的 在 线 序 集成 (企业 
数据 访问 例如 : 出 纳 员 检查 余额 ，ATM 取 款 机 验证 账 


数据 ) 
户 ， 航 空 订 票 员 核实 航班 等 等 。 | 
随 着 时 间 的 流逝 在 线 数据 必须 要 集成 。 数 据 通过 世 


一 个 ETL 过 程 ， 进 入 数据 仓库 。 此 时 ， 数 据 已 经 转换 
为 企业 数据 了 。 数 据 进入 数据 仓库 后 ， 它 的 使 用 频率 

比较 高 。 但 使 用 频率 会 随 着 时 间 变 小 。 过 一 段 时 间 ， 医治 
数据 进入 了 近 线 数据 存储 。 数据 进入 近 线 数据 存储 后 ， CT 
间或 被 使 用 。 最 后 数据 到 了 要 存档 处 理 阶段 ， 就 从 近 | 鲜 | 


线 数 据 存 储 中 移出 ， 进 入 存档 存储 。 
将 数据 生命 周期 放 在 数据 仓库 环境 中 来 看 


在 此 对 数据 生命 周期 从 另 一 个 视角 做 一 个 简短 说 明 。 将 数据 生命 周期 与 数据 仓库 以 及 数 
据 仓库 外 围 的 体系 信息 构件 相 结 合 ， 绘 出 一 个 新 的 图 是 有 意义 的 ， 如 图 14-9 所 示 。 

如 图 14-9 所 示 ， 被 捕获 的 数据 进入 操作 型 的 应 用 程序 。 通 过 操作 型 的 应 用 程序 可 以 在 线 
访问 数据 。 过 了 一 段 时 间 ， 数 据 从 在 线 应 用 程序 进入 ETL 构 件 ， 再 从 ETL 构 件 进入 数据 仓库 。 
数据 会 在 数据 仓库 中 呆 一 段 时 间 ， 例 如 2 年 或 3 年 ， 然 后 进入 近 线 数据 存储 。 最 后 再 从 近 线 数 
据 存储 构件 进入 存档 存储 环境 。 

考虑 一 个 问题 非常 有 意思 : 如 果 信 息 生 命 周 期 中 的 数据 流 并 不 是 按照 上 述 步骤 进行 ， 将 
会 发 生 什 么 ? 答案 是 数据 会 膨胀 ， 以 致 发 生 阻塞 。 例 如 ， 数 据 不 流入 数据 仓库 中 会 发 生 什 
么 ? 答案 是 ， 操 作 环 境 会 膨胀 ， 整 个 组 织 如 梦 初 醒 : 商务 智能 无 法 进行 了 。 再 例如 ， 如 果 数 
据 仓 库 不 允许 数据 流入 近 线 数据 存储 环境 将 会 发 生 什么 ? 结果 是 数据 仓库 会 膨胀 ， 很 难 对 较 
早 的 数据 进行 分 析 ， 而 且 分 析 代 价 高 兄 。 

在 数据 的 整个 生命 周期 ， 由 于 对 数据 的 访问 概率 会 变化 ， 而 且 所 要 求 的 企业 视图 也 会 变 
化 ， 数 据 必须 从 一 个 体系 控件 传 信 另 一 个 体系 控件 。 


图 14-8 数据 的 生命 周期 
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图 14-9 数据 生命 周期 如 何 映 射 到 数据 仓库 以 及 其 他 体系 构件 的 


14.5 测试 和 数据 仓库 


数据 仓库 中 还 有 一 个 很 重要 的 问题 :在 数据 仓库 DSS 环 境 中 ， 有 没有 必要 建立 一 个 正式 
的 测试 环境 ?如 图 14-10 所 示 。 

整个 操作 型 领域 中 ， 惯 例 是 将 测试 环境 和 生产 环境 分 蝇 一 加 一 已 
发 环境 。 但 在 数据 仓库 环境 中 讨论 时 ， 很 多 机 构 只 有 一 个 a 
数据 仓库 。 那 么 数据 仓库 环境 和 生产 环境 有 何不 同 ? ot 

两 个 环境 最 大 的 不 同 就 是 期 望 的 不 同 。 在 操作 环境 中 ， 我 们 的 期 望 是 当代 码 进 入 生产 过 
程 时 应 该 是 正确 的 。 当 新 的 银行 业务 进入 运行 ， 如 果 代码 错误 ， 银 行 很 可 能 很 快 损失 很 多 钱 。 
而 且 ， 很 可 能 这 些 钱 无 从 追 回 。 因 为 是 银行 自己 的 错误 才 丢 钱 的 ， 所 以 银行 没有 追 索 权 。 因 
此 ， 电 脑 代码 在 面 对 公众 以 前 ， 最 好 是 正确 的 ，。 

但 是 人 们 对 数据 仓库 的 期 望 不 同 。 数 据 仓库 的 本 质 特征 就 是 不 断 地 调整 、 再 调整 。 在 数 
据 仓库 中 ,数据 生来 就 是 为 了 调整 。 

如 图 14-11 所 示 ， 最 终 用 户 会 对 数据 仓库 中 数据 的 精确 性 和 完整 性 ， 不 间断 地 提供 一 个 反 
俩 循环 。 

那么 ， 这 是 不 是 说 明 数据 仓库 的 工作 人 员 蓄意 地 把 不 良 数据 放 入 数据 仓库 中 呢 ? 当然 不 
是 。 数据 仓库 工作 人 员 一 直 竟 尽 全 力 把 最 好 的 数据 放 入 仓库 当中 。 而 这 是 否 意味 着 数据 仓库 
中 的 数据 是 完美 的 ? 当然 不 是 。 放 在 数据 仓库 中 的 数据 已 经 是 最 好 的 可 行 数据 ,但 是 没有 人 
可 以 保证 其 中 的 数据 是 尽善尽美 的 。 
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很 显然 ， 当 谈 到 数据 仓库 和 操作 环境 当中 的 数据 时 ， 我 们 有 不 同 的 标准 和 期 望 。 其 部 分 
OO 
在 操作 环境 中 ， 数 据 必须 精确 到 一 定 程度 。 银 行 系统 
告诉 我 账户 还 有 512.32 美 元 的 时 候 ， 这 个 数据 是 精确 的 。 
但 是 当 一 个 数据 是 从 数据 仓库 中 计算 出 来 时 ， 它 在 允许 的 Ns 
范围 内 可 以 有 一 些 误差 。 例 如 ， 假 设 一 个 机 构 计 算出 它 还 
有 价值 1 337 290.12 美 元 的 库存 。 但 如 果真 实 的 价值 是 
1 336 981.01 呢 ? 这 个 不 太 精确 的 计算 值 是 否 会 对 生意 产生 ss 一 
影响 ” 它 是 否 对 整个 商务 决策 产生 决定 性 的 影响 ?如 果真 
是 这 样 ， 答 案 是 这 个 商务 决策 不 符合 常规 。 
因此 ， 如 果 数 据 仓库 是 99% 精 确 的 ， 那 么 ， 它 对 数据 “图 1 下 数据 仓库 环境 中 的 测试 
仓库 的 有 效 性 没有 什么 影响 。 当 然 ， 如 果 数 据 仓库 是 50% 精 确 的 ， 数 据 仓库 是 否 有 用 可 能 真 
的 要 打折 扣 了 。 


14.6 追踪 数据 仓库 中 的 数据 流 


基于 多 方面 的 原因 ， 需 要 对 数据 仓库 当中 的 数据 流 以 及 所 涉及 的 部 件 进行 追踪 。 图 14-12 
显示 出 这 种 追踪 。 

一 旦 追踪 完成 ， 就 可 以 绘 出 一 个 反映 数据 流 的 图 形 。 

需要 做 这 些 追 踪 的 原因 ， 是 为 了 支持 最 终 用 户 进行 分 析 。 分 析 员 察看 一 个 数据 元 素 〈 例 
如 “和 僵 利 ”) 时 ， 最 终 用 户 并 不 了 解数 据 的 真实 意义 。 仅 提供 “和 蛋 利 ”而 不 说 明 是 哪 种 僵 利 当 
然 不 行 。 是 可 以 认可 的 盘 利 ? 项目 僵 利 ”丢掉 的 司 利 ?确证 的 僵 利 ? 这 些 都 是 熏 利 ， 但 却 非 
常 不同 。 宣 目地 使 用 数据 元 素 “ 僵 利 "， 显 然 是 非常 有 误导 性 。 


@ 
Ce 
个 - 国 _、 追踪 数据 仓库 当中 的 数据 流 
3_ 图 一 1 最 初 的 捕获 
2 ETL 企 业 集成 
, 3 数据 集 市 转换 
4 探查 型 数据 仓库 /数据 挖 气 
5 近 线 数据 存储 
@ 6 存档 存储 





图 14-12 追踪 数据 仓库 当中 的 数据 流 
分 析 员 通过 追踪 数据 的 流程 就 可 以 知道 数据 的 真实 意义 。 数据 的 出 处 是 什么 ?难道 回 到 
数据 的 初始 捕获 状态 吗 ? 分 析 员 可 以 通过 追踪 数据 仓库 中 的 数据 ， 通 过 分 析 数 据 所 经 过 的 转 
换 以 及 重新 对 数据 计算 等 等 ， 来 确切 地 知道 数据 的 真实 意义 。 
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对 数据 仓库 以 及 所 涉及 的 部 件 当中 的 数据 流 进行 追踪 ， 涉 及 的 一 个 问题 就 是 数据 转换 。 
数据 转换 至 少 在 两 种 情况 下 发 生 : 改变 名 称 ( 即 元 数据 的 更 改 ): 和 值 本 身 的 转换 。 | 

名 称 的 改变 经 常 发 生 。 例 如 ， 在 一 个 系统 中 一 个 数据 单元 的 名 称 可 能 是 “abc”。 数 据 转 
到 妃 一 个 系统 中 ， 名 字 改 为 “bcd"。 数 据 转 到 第 三 个 系统 ， 名 字 成 了 “xyz”。 跟 踪 名 称 的 改 
变 是 追踪 数据 仓库 中 数据 的 一 个 重要 工作 。 

追踪 数据 涉及 的 其 他 方面 更 加 复杂 ， 但 是 出 现 的 频率 并 不 高 。 在 某 种 情况 下 ， 数 据 单元 
在 移动 时 将 被 重新 计算 。 举 个 例子 ， 一 个 环境 有 相应 的 账户 表格 ， 而 另 一 个 系统 有 不 同 的 账 
户 表格 ， 数 据 要 从 第 一 种 表格 进入 第 二 种 表格 。 在 这 种 情况 下 ; 数据 将 被 重新 计算 。 一 部 分 
的 数据 值 进入 一 个 账户 ， 另 一 部 分 保存 在 另 一 个 账户 当中 。 尽 管 数 据 的 总 值 不 变 ， 具 体 值 却 
有 差别 ， 而 且 分 散在 不 同 的 地 方 。 因 此 ， 追 踪 数 据 的 时 候 ， 既 要 追踪 元 数据 的 改变 ， 也 要 追 
踪 值 的 改变 。 

数据 追踪 重要 性 不 只 是 对 最 终 用 户 分 析 员 来 讲 的 。 它 对 数据 仓库 管理 员 和 维护 程序 员 来 
讲 都 是 重要 的 。 这 些 类 型 的 人 员 需 要 创建 数据 追踪 ， 获 得 有 用 的 信息 。 

最 后 ， 追 踪 数 据 后 画 出 的 图 并 不 是 一 成 不 变 的 ， 它 要 不 断 地 变化 。 每 次 有 新 的 数据 单元 
加 入 到 数据 仓库 当中 ， 或 者 每 次 计算 有 所 变化 ， 抑 或 老 的 数据 源 离开 ， 新 的 数据 源 加 入 ， 都 
有 可 能 需要 对 数据 仓库 和 其 构件 中 的 所 有 数据 追踪 图 进行 更 改 。 


14.6.1 数据 仓库 中 的 数据 速率 


与 数据 仓库 中 的 数据 追踪 相关 的 就 是 数据 仓库 的 数据 速率 这 个 字眼 。 数 据 仓库 中 的 数据 
速率 指数 据 从 最 初 捕 获 到 分 析 人 员 分 析 这 个 过 程 中 ， 数 据 的 传输 速率 。 图 14-13 用 来 解释 数据 
速率 。 





图 14-13 数据 在 数据 仓库 中 传输 时 的 数据 速率 
从 数据 进入 系统 直到 能 被 最 终 用 户 分 析 员 使 用 有 一 个 平均 时 间 ， 通 过 这 个 平均 时 间 ， 就 
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可 以 计算 出 数据 速率 。 就 是 说 ， 从 数据 进入 系统 到 传人 应 用 程序 ， 传 人 ETL ， 再 进入 数据 仓 
库 ， 最 后 到 达 数 据 集 市 分 析 环 境 的 时 间 ， 决 定 了 数据 的 速率 。 

有 一 些 确定 的 因素 减 慢 数 据 速率 。 一 个 因素 是 数据 集成 。 数 据 的 集成 越 多 ， 数 据 速率 就 
越 低 。 相 反 ， 数 据 的 集成 越 少 ， 数 据 速率 就 越 高 。 

一 个 组 织 可 以 通过 儿 种 方法 提高 数据 的 速率 。 在 一 些 情况 下 ， 数 据 可 以 很 快 通过 ETL 部 
件 。 实 际 上 ， 可 以 使 用 数据 移动 软件 使 数据 以 毫秒 级 速率 进入 数据 仓库 。 在 第 1 种 ODS 中 ， 数 
据 可 以 从 操作 型 应 用 软件 几乎 同步 地 进入 DDS 中 (如 果 不 了 解 ODS 的 四 个 种 类 ,可 以 查阅 第 3 
章 )。 这 样 ， 就 达到 了 快速 将 数据 移 人 数据 仓库 的 且 的 。 数 据 移 人 数据 仓库 的 速度 越 快 ， 可 以 
对 数据 进行 的 集成 操作 就 越 少 。 


14.6.2 “ 推 和 “ 拉 ” 数 据 


数据 从 数据 仓库 移 到 数据 集 市 和 分 析 环 境 ， 相 应 的 速率 就 是 另 一 回 事 了 。 数 据 移 人 数据 
仓库 可 以 看 成 一 个 “ 推 ”的 过 程 〈 就 是 说 ， 将 数据 从 操作 环境 推 人 数据 仓库 ) ， 数 据 从 数据 仓 
库 移 到 数据 集 市 是 一 个 “ 拉 ” 的 过 程 。 在 拉 的 过 程 当中 ,数据 只 有 在 需要 的 时 候 才 移动 .在 
推 的 过 程 当中 ， 数 据 可 用 就 可 以 移入 。 还 有 ， 从 数据 仓库 移出 数据 和 将 数据 移 人 数据 仓库 ， 
要 应 用 一 些 不 同 的 技术 ， 当 然 它 们 的 目的 也 不 同 。 

芳 虑 一 个 拉 过 程 的 例子 。 有 两 个 数据 集 市 。 其 中 的 一 个 集 市 要 求 越 快 见 到 数据 越 好 。 数 
据 仓 库 中 的 数据 会 很 快 移入 数据 集 市 。 而 另 一 个 数据 集 市 非常 不 一 样 ， 只 要 在 月 底 的 时 候 查 
看 数据 ， 到 时 它 再 收集 从 数据 仓库 中 取出 数据 。 在 一 个 月 当中 ， 由 于 数据 还 不 完整 ， 不 可 用 ， 
因此 把 它们 放 人 数据 集 市 豪 无 意义 。 

有 些 人 认为 数据 速率 越 高 就 越 好 。 很 多 情况 下 ， 这 种 想法 是 对 的 。 但 是 也 有 一 些 情 况 数 
据 速率 并 非 越 高 越 好 。 其 中 一 种 情况 出 现在 进行 启发 式 分 析 的 探查 型 系统 中 。 在 这 种 系统 中 ， 
时 不 时 地 要 将 所 有 的 数据 流 截断 。 在 这 种 情况 下 ， 数 据 不 断 地 流入 并 不 是 一 件 好 事 ， 可 能 还 
会 对 局 发 式 处 理 环境 的 集成 造成 损害 。 


14.7 数据 仓库 和 基于 网 络 的 电子 商务 环境 


数据 仓库 应 用 的 一 个 潜在 的 重要 方面 就 是 与 电子 商务 环境 结合 。 电 子 商务 环境 是 基于 网 
络 的 ， 在 这 种 环境 中 公众 通过 互联 网 处 理 商务 事务 。 

在 电子 商务 的 起 始 阶段 ， 人 们 普遍 地 认为 电子 商务 应 与 企业 系统 分 开 。 电 子 商 务 推崇 者 
轻视 那 种 老 的 标准 ， 即 老式 的 “砖头 加 灰 泥 ” 式 企业 信息 系统 ， 这 种 轻视 从 某 种 形式 上 来 讲 
也 带 着 一 些 势 利 眼 的 色彩 。 而 互联 网 的 冲击 波 击 得 了 那些 固执 的 组 织 ， 也 就 是 坚持 将 电子 商 
务 环境 分 离 出 来 的 组 织 ， 紧 接着 企业 系统 破产 了 。 

实际 上 ， 那 些 从 电子 商务 党 到 大 甜头 的 公司 的 法 宝 ， 就 是 设法 将 电子 商务 与 网 络 应 用 到 
企业 系统 当中 。 这 正好 与 早期 电子 商务 推崇 者 的 观点 完全 相反 。 

那么 ， 电 子 商 务 和 网 络 如 何 才能 更 好 地 连接 到 企业 系统 当中 呢 ? 数据 仓库 和 ODS 形成 了 
一 个 基础 ， 它 们 可 以 将 网 络 和 企业 信息 结合 起 来 。 


14.7.1 两 种 环境 之 间 的 界面 


图 14-14 显 示 网 络 和 企业 环境 之 间 的 界面 。 
图 14-14 显 示 数 据 从 网 络 环境 流 和 人 粒度 管理 器 ， 再 从 粒度 管理 器 进 和 人 数据 仓库 。 如 果 移 动 
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方向 改变 ， 数 据 就 从 数据 仓库 流入 ODS， 然 后 再 从 ODS 流 入 网 络 环境 。 
为 了 理解 这 些 流动 ， 我 们 作 如 下 分 析 。 





图 14-14 数据 仓库 和 电子 商务 


14.7.2 粒度 管理 器 


网 络 环境 会 产生 大 量 的 数据 ， 这 些 数据 称 为 点 击 流 数据 ， 一 般 位 于 网 络 日 志 中 。 

点 击 流 数据 在 用 户 每 次 使 用 互联 网 的 时 候 产 生 。 每 一 次 访问 一 个 新 的 网 页 ， 每 一 次 鼠标 
移动 ， 每 一 次 做 出 选择 或 点 击 超级 链接 ， 就 创建 一 个 点 击 流 数据 记录 。 网 络 处 理 的 一 个 副 产 
物 ， 就 是 产生 大 量 的 数据 。 事 实 上 ， 大 多 数 点 击 流 数 据 并 没有 商务 上 的 使 用 价值 。 据 估计 ， 
实际 上 只 有 5% 或 更 少 的 点 击 流 数据 是 有 用 的 。 因 此 ， 有 必要 精简 点 击 流 数据 中 的 数据 。 粒 度 
管理 器 可 以 完成 这 个 任务 ， 如 图 14-15 所 示 。 

粒度 管理 器 是 一 个 软件 ， 用 来 区 分 哪些 点 击 流 数 据 是 重要 的 和 有 用 的 ， 哪 些 点 击 流 数据 
是 没 用 的 。 粒 度 管理 器 完成 如 下 的 任务 : 

。 移 除 无 关 的 点 击 流 数据 

。 对 点 击 流 数据 进行 综合 

。 聚 集 点 击 流 数据 

。 如 果 合 适 的 话 合并 点 击 流 数据 

。 适 当 的 时 候 压缩 点 击 流 数据 

点 击 流 数据 用 来 准备 大 量 的 数据 进入 数据 仓库 。 在 数据 进入 粒度 管理 器 之 后 ， 大 概 至 少 
有 95% 的 要 移 除 。 

当 数 据 从 粒度 管理 器 中 移出 时 ， 数 据 就 可 以 进入 数据 仓库 ， 被 公司 使 用 了 。 粒 度 管理 器 
是 进入 数据 仓库 的 数据 的 另 一 个 来 源 。 

一 旦 网 络 环境 需要 数据 仓库 中 的 数据 ， 就 需要 从 数据 仓库 中 移 数据 到 ODS 中 。 数 据 仓库 
和 网 络 环境 并 没有 直接 的 联系 ， 其 中 一 个 重要 原因 就 是 网 络 环境 需要 的 响应 时 间 低 于 一 秒 。 
这 样 的 响应 时 间 对 于 数据 仓库 来 讲 是 不 可 能 的 。 因 此 ， 网 络 环境 需要 的 数据 传人 到 ODS 中 。 
传人 到 ODS 以 后 ， 低 于 秒 的 响应 时 间 就 可 以 达到 了 。 

因为 联系 不 直接 ， 数 据 分 析 员 必须 考虑 到 网 络 环境 中 需要 的 数据 是 哪些 。 这 一 般 来 讲 并 
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不 难 办 到 。 网 络 环境 需要 的 数据 通过 ODS 进入 网 络 环境 ， 这 些 数据 本 身 就 支持 与 网 络 相 关 的 
商务 操作 。 





图 14-15 粒度 管理 器 
14.7.3 概要 记录 
数据 从 ODS 进入 数据 仓库 以 支持 网 路 环境 时 ， 一 般 是 用 所 谓 的 “概要 文件 ”的 存储 格式 
安排 的 。 概 要 记录 是 一 种 形式 的 信息 ， 通 过 很 多 的 观测 形成 一 个 综合 的 图 画 。 许 多 观察 通过 
报告 汇总 ， 形 成 概要 。 
典型 的 概要 记录 是 因 用 户 而 存在 的 ， 看 起 来 像 下 面 这 样 : 


顾客 名 称 
顾客 地 址 
顾客 性 别 
顾客 电话 
顾客 收入 层次 
顾客 业余 爱好 
顾客 子女 情况 
顾客 生日 
顾客 汽车 
顾客 支付 习惯 
顾客 浏览 习惯 
顾客 历史 消费 情况 
顾客 阅读 习惯 
顾客 音乐 品位 


最 后 一 次 顾客 访问 

这 些 完全 不 同 的 数据 是 从 不 同 的 记录 和 源头 得 来 的 。 一 些 来 源 于 过 去 的 消费 记录 ， 一 些 
来 源 于 顾客 历史 记录 ， 一 些 涉及 到 浏览 习惯 ， 等 等 。 当 细节 数据 从 数据 仓库 中 出 来 时 ， 被 压 
缩 成 一 个 概要 记录 。 现 在 ， 如 果 网 络 环境 想 了 解 信息 ， 就 可 以 根据 顾客 的 概要 记录 快速 地 得 
到 需要 的 信息 。 


14.7.4 ODS， 概要 记录 以 及 性 能 


当 网 站 需要 访问 ODS 中 的 概要 记录 值 时 会 发 生 什么 ”如 果 没 有 概要 记录 ， 网 站 就 必须 访问 
数据 仓库 。 到 达 数 据 仓库 以 后 ， 网 站 就 必须 等 待 。 由 于 网 站 的 访问 量 较 大 ， 等 待 的 时 间 可 能 很 
长 。 当 轮 到 网 站 查看 数据 时 ， 必 须 从 大 量 的 记录 当中 查询 ， 接 着 不 得 不 对 那些 记录 加 以 分 析 。 

所 有 的 这 些 都 需要 时 间 。 如 果 ODS 中 没有 相应 的 概要 记录 ， 返 回 网 站 的 响应 时 间 可 能 是 
几 分 钟 ， 甚 至 几 个 小 时 。 用 户 如 果 知 道 要 等 那么 长 时 间 ， 早 就 走 了 。 因 此 ， 为 了 支持 数据 的 


人 
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及 时 访问 ， 网 站 访问 ODS ， 而 不 是 数据 仓库 。 
由 于 这 些 原因 ， 创 建 概要 记录 并 且 放 在 ODS 中 就 很 有 意义 了 。 一 旦 概要 记录 创建 并 放 在 
ODS 中 ， 对 它 的 访问 时 间 就 可 以 用 毫秒 来 衡量 了 。 这 样 就 能 敏捷 高 效 地 为 因特网 用 户 提供 服务 。 


14.8 财务 数据 仓库 


每 个 数据 仓库 都 必须 有 一 个 起 点 。 在 很 多 机 构 中 ， 起 点 是 一 个 关于 财务 的 数据 仓库 。 当 
然 ， 财 务 和 商务 是 非常 接近 的 ， 或 者 至 少 和 商务 的 核心 接近 。 财 务 涉及 的 信息 一 般 较 少 。 财 
务 数据 一 般 很 有 规矩 ， 因 此 ， 经 常 是 许多 数据 仓库 很 好 的 起 点 。 

但 是 财务 数据 仓库 也 有 一 个 整 端 。 大 多 数 的 财务 人 员 不 明白 应 用 程序 数据 和 企业 数据 之 
间 的 不 同 。 大 多 数 财务 分 析 员 天 天 与 报表 打交道 ， 完 全 没 oo 2 


有 企业 数据 与 业务 数据 的 概念 。 这 种 不 同 的 认识 视角 对 他 
们 理解 财务 数据 仓库 造成 了 困难 。 | 


为 了 理解 这 种 不 同 以 及 其 重要 影响 ， 看 图 14-16 中 简单 


的 数据 仓库 。 应 用 软件 数据 仓库 
图 14-16 显 示 ， 应 用 软件 中 有 一 个 钱 数 ， 而 在 数据 仓库 。 图 14-16 数据 移 到 数据 仓库 以 后 ， 
中 是 另 一 个 钱 数 。 财 务 分 析 人 员 发 现 了 这 个 问题 ， 于 是 认 其 值 有 所 不 同 


为 数据 仓库 不 可 靠 。 分析 员 觉得 应 用 程序 环境 和 数据 仓库 中 的 数据 的 钱 数 都 应 该 是 一 模 一 样 
的 。 如 果 不 是 这 样 ， 数 据 仓 库 就 不 可 靠 。 

图 中 显示 的 情况 当然 没有 错误 。 其 中 钱 数 的 差异 可 以 有 很 多 种 解释 ， 以 下 是 可 能 的 一 些 
原因 : 

。 数 据 仓库 中 的 数据 是 用 通用 货币 来 衡量 的 。 应 用 软件 中 的 数据 是 用 美元 来 衡量 的 ， 但 是 

数据 仓库 中 的 数据 是 用 加 拿 大 元 衡量 的 。 

。 应 用 软件 中 的 数据 是 按照 日 历 的 月 份 采 集 的 。 数据 仓库 中 的 数据 是 按照 公司 月 份 收 集 的 ， 

与 日 历 月 份 不 同 。 要 与 数据 仓库 中 的 数据 保持 一 致 ， 需 要 对 数据 进行 校正 。 

。 会 计 分 类 方法 改变 了 。 应 用 软件 中 的 数据 采用 的 是 一 种 会 计 分 类 方法 ， 数 据 仓库 中 的 数 

据 采 用 的 是 另 一 种 会 计 分 类 方法 。 要 想 数 据 一 致 ， 数 据 仓 库 的 数据 必须 采用 同一 种 分 类 

方法 。 

数据 从 应 用 软件 到 数据 仓库 做 出 了 调整 ， 可 以 用 很 多 原因 解释 。 某 种 程度 上 ， 数 据 保持 
一 致 才 值 得 奇怪 。 

不 幸 的 是 ， 财 务 分 析 员 只 有 受过 相关 的 培训 才 可 以 理解 数据 仓库 的 基本 结构 。 

图 14-17 显 示 出 集成 的 必要 。 


美元 
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图 14-17 为 什么 应 用 软件 中 的 数据 和 企业 级 数据 有 所 不 同 
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14.9 记录 系统 


数据 仓库 环境 很 重要 的 一 个 方面 就 是 所 谓 的 “记录 系统 "。 记 录 系 统 是 给 定 的 所 有 信息 值 
的 信息 源 。 为 了 理解 记录 系统 的 重要 性 ， 考 虑 银行 是 如 何 管理 大 量 数据 的 。 考 虑 银行 账户 的 
数据 值 。 银 行 账户 的 记录 是 在 称 为 “数量 ”的 一 个 字段 。 银 行 中 账户 数量 域 可 以 出 现在 很 多 
地 方 。 但 是 只 有 一 个 地 方 是 记录 系统 。 在 银行 中 ， 记 录 系 统 所 在 之 处 就 是 数据 更 新 的 地 方 。 
其 他 所 有 账户 数量 域 出 现 的 地 方 都 是 从 这 里 复制 的 。 

如 果 银 行 中 有 一 个 地 方 可 以 更 新 账户 数量 域 ， 银 行 就 有 麻烦 了 。 而 且 ， 如 果 出 现在 不 同 
地 方 的 账户 数值 有 所 差别 ， 在 默认 的 情况 下 系统 确定 为 
记录 系统 的 值 才 是 正确 的 。 然 后 记录 系统 建立 集成 数据 ， 6 


这 些 数据 集成 在 一 定 的 环境 中 ， 在 其 中 相同 的 数据 元 素 路 
可 能 出 现任 意 次 。 
从 ] 当前 值 的 数据 





为 了 理解 数据 仓库 环境 中 的 记录 系统 ， 考 虑 支撑 应 
用 软件 和 应 用 软件 之 间 的 关系 ， 如 图 14-18。 

图 14-18 显 示 出 应 用 软件 中 的 值 是 当前 值 ， 而 数据 仓 
库 中 是 历史 值 。 当 前 值 表达 的 是 访问 时 刻 数 据 的 精确 性 。 ce 
如 果 有 人 想 知 道 他 的 账户 中 现在 还 有 多 少 钱 ， 他 要 访问 历史 数据 
的 就 是 当前 值 。 如 果 他 想 知道 的 是 账号 当中 数据 的 历史 
活动 ， 最 好 访问 历史 记录 。 因 此 ， 应 用 程序 和 数据 仓库 
环境 含有 不 同 的 数据 。 

毫 无 疑问 ， 当 前 值 的 数据 记录 系统 存放 在 应 用 环境 中 。 如 图 14-19。 

图 14-19 显 示 出 ， 来 自 于 不 同 应 用 程序 的 不 同 数据 形成 了 记录 系统 ， 提 供 当 前 的 数据 值 。 
注意 ， 一 个 应 用 程序 可 能 包含 一 个 记录 系统 ， 而 另 一 个 应 用 程序 可 能 含有 另 一 个 记录 系统 。 
应 用 环境 中 记录 数据 系统 的 挑选 基于 多 种 标准 ， 例 如 : 


图 14-18 应 用 环境 和 数据 仓库 环境 中 
的 数据 类 型 有 本 质 上 的 不 同 


。 什 么 数据 是 最 精确 的 ? 
。 什 么 数据 是 最 当前 的 ? 
。 什 么 数据 是 最 细致 的 ? 
。 什 么 数据 是 最 完整 的 ? 
。 什 么 数据 是 最 新 的 ? 


图 14-19 当前 数据 值 的 记录 系统 填充 数据 仓库 
如 此 说 来 ， 应 用 环境 当中 的 记录 系统 是 最 好 的 数据 源 。 
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注意 在 很 多 情况 下 ， 数 据 仓 库 当 中 的 一 个 数据 单元 如 果 作 为 记录 系统 中 的 数据 单元 的 话 ， 
将 会 可 能 含 多 个 数据 单元 。 在 这 种 情况 下 ， 对 于 同一 个 数据 单元 ， 有 多 个 数据 源 。 必 须 有 相 
应 的 逻辑 来 区 分 在 何 种 情况 下 ， 哪 个 数据 单元 是 最 好 的 数据 源 。 

但 是 ， 记 录 系 统 并 不 是 在 应 用 环境 中 就 结束 了 。 当 数据 传 到 数据 仓库 环境 当中 时 ， 数 据 
从 当前 值 数据 变 为 历史 数据 。 这 样 ， 历 史 数 据 的 记录 系统 就 形成 了 。 图 14-20 是 历史 数据 的 记 
录 系 统 。 

数据 仓库 当中 创建 的 记录 系统 相应 的 成 为 数据 源 ， 提 供 各 种 DSS 处 理 所 用 的 数据 。 数 据 
仓库 中 的 记录 系统 为 以 下 环境 服务 : 

。 数 据 集 市 环境 

。ODS 环 境 

。DSS 应 用 程序 环境 

。 探 查 /数据 挖掘 环境 

于 是 ， 对 应 用 程序 和 数据 仓库 环境 来 说 ， 又 出 现 了 一 个 扩展 的 记录 系统 。 
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图 14-20 数据 仓库 成 为 历史 和 DSS 数据 的 记录 系统 


14.10 结构 体系 的 概要 历史 一 一 演化 为 公司 信息 工厂 


技术 领域 尚 处 于 婴儿 的 阶段 。 与 其 他 人 相 比 ， 尽 管 我 们 是 懂 专 业 的 业内 人 员 ， 充 其 量 也 
只 是 呀 呀 学 语 的 婴儿 。 罗 马 城 2000 年 前 修建 的 道路 和 围墙 到 现在 还 在 使 用 。 埃 及 坟墓 中 的 象 
形 文字 写 着 古老 会 计 师 的 公告 ， 公 布 了 法 老 王 所 拥有 的 粮食 数目 。 在 智利 山洞 中 出 士 的 Clovis 
人 的 文物 证 实 ， 早 在 16 000 年 前 ， 人 类 至 少 已 经 开始 使 用 原始 类 型 的 药物 。IT 行 业 与 工程 ， 
会 计 和 医药 相 比 ， 还 很 稚嫩 。IT 行 业 只 不 过 开始 于 1950 年 左右 。 其 他 很 多 职业 的 起 源 与 人 类 
文明 的 起 源 同步 。 

但 是 IT 行 业 的 发 展 已 经 在 很 短 的 时 间 走 了 很 长 的 路 。 不 信 可 以 看 看 IT 体 系 ， 至 少 在 IT 从 
业 人 员 来 讲 ，IT 有 一 个 体系 。 

早 在 1983 年 以 前 ， 就 有 应 用 软件 。 付 款 账号 ， 收 款 账 号 ， 在 线 处 理 ， 分 批 处 理 都 是 应 用 
软件 的 用 武之 地 。 但 是 在 1983 年 左右 ， 有 人 注意 到 信息 的 应 用 需求 ， 而 不 仅仅 是 数据 的 应 用 
需求 。 相 应 的 需求 产生 了 ， 它 的 对 象 是 整个 公司 ， 而 不 仅仅 是 一 个 小 小 的 应 用 程序 环境 。 还 
有 ， 当 时 并 没有 所 谓 的 历史 数据 。 应 用 程序 在 提高 性 能 实现 后 ， 尽 早 地 把 历史 数据 丢弃 了 。 

1983 年 数据 仓库 的 锥 形 诞生 了 ， 也 就 是 原子 数据 。 对 粒状 的 ， 整 合 的 历史 数据 的 需求 俱 
生 了 前 所 未 有 的 数据 处 理 方式 。 有 了 数据 仓库 ， 商 务 智能 才 成 为 可 能 。 没 有 数据 仓库 ， 商 务 
智能 只 能 是 一 个 理论 。 但 是 人 们 很 快 就 发 现 ， 遗 留 下 来 的 系统 已 经 在 态 一 息 ) 想 用 它 来 创建 
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数据 仓库 ， 只 有 程序 员 并 不 能 完成 。 因 为 遗留 下 来 的 环境 非常 坚硬 ， 非 常 紧 地 冻结 成 一 块 ， 
人 们 需要 一 种 方式 用 来 访问 和 集成 数据 。 在 1990 年 ，ETL 出 现 了 。 有 了 ETL, 遗 留 下 来 的 应 用 
环境 数据 就 可 以 访问 和 集成 了 。 

ETL 大 大 促进 了 商务 智能 的 发 展 。 从 1994 年 左右 ， 数 据 仓库 出 现 了 各 种 各 样 的 扩展 。 出 
现 了 多 维 的 OLAP 数 据 集 市 ， 探 查 型 数据 仓库 和 ODS。 一 时 间 人 们 开始 进行 各 种 各 样 的 商务 智 
能 工作 。 有 了 ODS， 即 使 更 新 和 业务 处 理 过 到 了 集成 数据 ， 系 统 还 可 以 进行 实时 处 理 。 有 了 
数据 集 市 ， 星 形 模型 和 事实 表 有 了 容 身 之 地 。 有 了 探查 型 数据 仓库 ， 统 计 学 家 就 有 了 一 个 数 
据 基 础 ， 可 以 使 从 数据 管理 员 到 统计 分 析 员 进行 数据 挖掘 分 析 。 

正 是 在 这 个 时 期 数据 仓库 演变 成 企业 信息 工厂 〈CIF)。 

在 2000 年 左右 出 现 了 网 络 大 爆炸 。 组 织 机 构 开 始 用 网 络 环境 作为 市 场 和 销售 的 手段 。 在 
开始 的 时 候 ， 网 络 从 业 人 员 还 想 和 企业 系统 分 开 。 但 是 很 快 发 现 ， 网 络 环境 要 想 成 功 就 必须 
与 企业 系统 集成 。 网 络 与 企业 环境 的 联系 是 如 此 实现 的 : 粒度 管理 器 处 理 数据 ， 然 后 把 数据 
放 人 数据 仓库 。 数 据 通过 ODS 从 企业 环境 进入 网 络 环境 。 还 有 ， 在 这 个 时 期 ，DSS 应 用 软件 
出 现 了 。 企 业 的 绩效 管理 成 为 现实 。 而 且 ， 更 改过 的 数据 的 捕获 开始 出 现 。 除 了 这 些 ， 适 应 
性 数据 集 市 出 现在 商务 智能 领域 。 适 应 性 数据 集 市 是 一 个 临时 的 结构 ， 有 一 些 数据 集 市 和 探 
查 型 数据 仓库 的 特点 。 

几乎 同时 ， 数 据 仓 库 当 中 的 数据 量 迅 速 增加 。 把 数据 仓库 当中 大 量 的 数据 放 在 磁盘 上 不 可 
取 ， 因 为 对 它们 的 访问 并 不 频繁 。 于 是 ， 把 数据 放 在 不 同 的 物理 媒介 上 变 得 越 来 越 有 吸引 力 。 

企业 应 用 集成 EAI) 是 一 种 后 端的 机 制 ， 用 于 将 一 个 应 用 程序 的 数据 传 到 另 一 个 应 用 程 
序 。EAI 侧 重 传 输 的 速率 和 传输 量 ， 能 做 的 数据 集成 很 少 ， 或 者 做 不 了 集成 。 

在 2004 年 ， 信 息 工厂 当中 出 现 了 新 的 提炼 方法 。 增 加 了 两 个 最 重要 的 特征 ， 一 个 是 虚拟 
操作 数据 看 储 【VODS )， 另 一 个 是 非 结构 化 数据 。，VODS 使 组 织 结构 可 以 访问 流动 状态 的 数 
据 ， 不 必 依 赖 于 其 他 的 基础 结构 。VODS 非 党 灵活 且 易于 建造 。 但 在 VODS 当 中 ,查询 进行 时 ， 
如 采 它 有 效 ， 才 可 以 处 理 。 非 结构 化 数据 与 结构 数据 结合 后 ， 一 种 全 新 的 应 用 软件 成 为 可 能 。 
企业 的 通信 第 一 次 可 以 和 企业 的 事务 处 理 结合 起 来 。 以 上 所 提 到 的 这 些 组 成 了 一 幅 比 以 前 所 
建 都 复杂 的 图 画 。 

其 他 新 加 入 信息 工厂 的 特征 包括 存档 数据 。 存 档 数据 是 近 线 数据 存储 的 补充 ， 使 组 织 可 以 
管理 更 多 的 数据 。 存 档 环境 是 一 个 跨 媒介 的 存储 管理 器 (CMSM)， 可 以 管理 数据 仓库 和 近 线 数 
据 之 间 的 数据 传输 。 尽 管 数据 的 访问 概率 会 有 所 波动 ，CMSM 还 是 可 以 管理 多 行 的 数据 移动 。 

非 结 构 化 可 视 化 技术 是 非 结构 化 环境 的 补充 。 非 结构 化 可 视 化 和 商务 智能 相当 ， 只 是 非 
结构 化 可 视 化 是 针对 文本 数据 的 ， 而 商务 智能 是 针对 数字 型 数据 的 。 

还 有 ， 人 们 越 来 越 认识 到 需要 某 种 监控 器 ， 对 数据 仓库 环境 进行 管理 。 而 且 ， 这 个 监控 
器 与 事务 处 理 的 监控 器 有 着 本 质 的 不 同 。 

数据 的 探查 领域 逐渐 地 成 熟 ， 数 据 挖 掘 和 数据 探查 出 现 了 。 当 然 ， 尽 管 差异 很 小 ， 数 据 
挖掘 和 数据 探查 还 是 有 少许 不 同 。 

整个 的 体系 是 以 信息 工厂 〈 即 CIF) 的 名 称 出 现 的 。 如 此 说 来 ，CIF 是 一 个 有 生命 的 有 机 
体 ， 在 不 断 地 成 长 和 变化 。 每 一 次 技术 上 的 进步 都 对 CIF 带 来 改变 。 

从 1980 年 到 2005 年 CIF 的 成 长 就 像 是 人 类 的 进化 一 样 。 人 类 从 在 树 上 游荡 的 动物 进化 到 今 
天 的 现代 家 族 一 一 拥有 汽车 ， 电 视 ， 冷 水 热 水 ， 可 以 到 超市 买 新 鲜 的 食品 。 有 一 件 事情 是 可 
以 确定 的 ， 就 是 信息 的 进化 不 会 停留 在 今天 。 
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14.10.1 CIF 的 进化 


CIF 起 源 于 数据 仓库 。 美 国 911 事 件 发 生 以 后 ， 政 府 信 息 工厂 GIF) 就 出 现 了 。 

GIF 在 很 多 方面 跟 CIF 很 像 。GIF 的 基本 架构 与 CIF 的 架构 类 似 。 毫 无 疑问 ， 这 两 种 架构 是 
联系 在 -- 起 的 。 先 有 CIF， 再 有 GIF。 人 和 但 是 它们 之 间 也 有 很 大 的 不 同 。 

第 一 个 很 大 的 不 同 就 是 ， 政 府 系 统 需 要 进行 广阔 的 数据 集成 。 在 企业 系统 中 ， 如 果 问 公 
司 数据 仓库 相关 人 员 为 何 要 建造 数据 仓库 ， 回 答 永远 不 会 是 “我 们 为 别 的 公司 建 *"。Chevron 
并 不 是 为 了 和 Levi's 共 享 数据 才 建 并 数据 仓库 的 ;ATT 建 造 数据 仓库 并 没有 考虑 Shell Oil 是 不 
是 要 用 ; Wells Fargo 建 造 的 数据 仓库 不 是 为 Burlington Northen 服 务 的 ， 等 等 。 这 些 公司 建 库 
的 动机 就 是 为 了 自身 。 

但 是 政府 的 问题 就 不 一 样 了 。911 以 后 ， 总 统 和 国会 之 间 有 必要 分 享 数据 。 在 法 律 允许 的 
范围 内 ， 数 据 必 须 为 FBI， 美 国 公民 ， 移 民 署 ，CIA 和 其 他 的 人 或 组 织 所 共享 。 如 果 美 国 真 的 要 
打击 恐怖 主义 ， 数 据 的 分 享 必须 实现 。 但 是 这 些 年 来 ， 不 同 的 政府 机 构建 造 的 数据 存在 差异 。 

GIF 是 一 种 体系 结构 ， 是 为 政府 数据 分 享 所 需 的 设施 和 技术 而 设计 的 。 共 享 数据 政治 方面 
的 问题 还 是 留 给 政治 家 们 去 解决 。 

所 以 ，CIF 和 GIF 之 间 的 区 别 之 一 就 是 数据 分 享 和 集成 的 范围 有 所 不 同 。 

第 二 个 不 同 在 第 一 眼看 上 去 也 许 平淡 无 奇 。 但 是 ， 数 据 在 政府 系统 之 中 的 生存 期 比 在 企 
业 系 统 中 要 长 。 例 如 ， 在 企业 中 ， 由 于 五 年 前 的 业务 开展 情况 与 现在 很 不 相同 ， 所 以 五 年 以 
前 的 数据 可 能 有 害 ， 很 可 能 有 误导 作用 。 在 实际 中 ， 有 些 商业 机 构 确 实 收集 和 管理 五 年 以 前 
的 数据 。 但 大 多 数 的 公司 都 不 是 这 样 。 

但 是 在 政府 中 ， 数 据 的 生命 期 很 长 ， 其 中 的 原因 有 很 多 。 有 时 长 期 保存 数据 是 法 定 的 。 
有 时 通常 的 商业 惯例 需要 长 期 保存 数据 。 我 早 些 年 参与 过 一 个 项 目 ， 在 那个 项 目 中 军队 收集 
的 数据 可 以 追溯 到 美国 内 战 。 即 使 一 个 小 部 门 也 长 时 间 收 集 并 保存 数据 。 在 政府 这 个 圈 里 ， 
保存 的 数据 一 般 不 低 于 5 年 。 

由 于 数据 在 政府 中 的 生命 周期 比较 长 ， 所 以 其 中 要 管理 的 数据 比 在 商业 机 构 中 要 更 多 。 
抛 开 别 的 不 说 ， 首 先 这 意味 着 在 政府 数据 管理 中 ， 存 档 存 储 和 数据 的 批 处 理 非 常 重要 。 存档 
存储 和 数据 的 批 处 理 在 商业 领域 中 相对 没有 这 样 重要 。 

政府 和 商业 领 域 体系 结构 的 第 三 个 不 同 就 是 安全 性 。 商 业 领 域 中 ， 基 于 安全 性 的 考虑 比较 
松懈 (当然 ， 很 可 能 是 对 安全 性 的 一 种 低估 )。 商 业 性 数据 仓库 基本 上 不 强调 安全 性 。 商 业 上 的 
考虑 就 是 ， 建 造 好 数据 仓库 ， 使 其 运作 ， 然 后 使 用 。 大 多 数 的 机 构 都 把 数据 仓库 安全 当成 后 话 。 

政府 当中 的 情况 可 就 不 同 了 。 由 于 政府 事务 的 特性 和 法 律 的 因素 ， 政 府 在 安全 的 因素 上 
马虎 不 得 。 政 府 的 数据 仓库 必须 从 一 开始 就 考虑 安全 的 因素 。 

这 些 就 是 CIF 和 GIF 之 间 最 重要 的 不 同 。 当 然 ， 还 有 其 他 很 多 的 不 同 ， 但 如 下 列 出 的 这 些 
不 同 是 最 重要 的 : 

。 对 数据 集成 和 分 享 的 广度 要 求 不 同 

。 对 数据 的 保存 时 间 要 求 不 同 

"设计 上 对 安全 的 要 求 不 同 


14.10.2 障碍 
GIF 面 对 的 障碍 之 一 就 是 “不 关 我 的 事 ”(nih) 综合 症 。 政 府 永远 不 赞助 GIF。 上 级 不 给 
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指示 。 政 府 部 门 也 没有 特权 根据 GIF 建 造 系统 。 还 有 ，GIF 是 经 过 商标 注册 的 知识 产权 ， 所 以 
系统 集成 人 员 要 用 GIF 就 会 产生 问题 。 系 统 集成 人 员 不 能 对 GIF 重 新 打包 ， 重 新 销售 ， 因 为 它 
不 是 公共 范围 内 的 知识 产权 。 

另 一 方面 ，GIF 与 其 他 的 政府 体系 结构 系统 没有 竞争 关系 。 其 他 的 体系 结构 方法 往往 是 用 
“ 纸 和 笔 ”"， 只 要 所 需 的 要 求 完全 达到 并 且 合 情 合理 就 行 了 。 但 是 谈 到 执行 时 的 具体 细节 ， 也 
就 是 体系 结构 与 技术 的 结合 之 处 ， 就 只 有 GIF。 在 这 方面 ，GIF 是 政府 赞助 的 其 他 体系 的 补充 。 
有 了 GIF， 其 他 的 政府 体系 就 有 了 路 线 图 。 

尽管 有 这 些 障碍 ，GIF 还 是 得 到 了 政府 的 关注 。 如 果 能 和 GIF 结合 ， 大 的 合同 往往 能 得 到 
批准 。 假 如 政府 相关 的 合同 签订 人 员 不 愿意 要 GIFE， 一 旦 合同 的 条 款 通过 ， 他 们 就 没有 办 法 了 。 


14.11 CIF 的 未 来 


从 被 视 为 异端 到 被 看 作 高 招 ，CIF 和 数据 仓库 在 很 短 的 时 间 内 有 了 很 大 的 发 展 。 但 是 ， 是 
不 是 发 展 已 经 结束 了 ? 答案 是 : 一 切 才刚 刚 开 始 。 未 来 很 可 能 像 过 去 一 样 ， 充 满 了 新 奇 和 令 
人 激动 的 挑战 。 

现今 对 CIF 和 数据 仓库 至 少 有 四 个 方面 已 现 曙光 : 

“分 析 

。 ERP/SAP 商 务 智 能 

* 韭 结构 化 商务 智能 

“大 量 数据 的 捕获 和 管理 


14.11.1 分 析 


数据 仓库 建成 以 后 ， 或 者 是 至 少 第 一 批 数据 进入 数据 仓库 以 后 ， 问 题 就 出 来 了 : 我 如 何 
能 从 投资 当中 获得 最 大 的 收益 ? 答案 是 分 析 数 据 。 分 析 是 观察 和 分 析 数 据 仓 库 中 的 数据 从 而 
得 到 信息 。 数 据 仓 库 中 的 细节 型 历史 数据 可 以 通过 很 多 种 方式 来 检查 。 从 而 商务 模式 出 现 了 。 
这 了 时， 商务 可 以 用 以 前 从 来 没有 的 方式 来 了 解 自 己 。 结 果 就 是 企业 更 有 洞察 力 。 这 些 洞察 力 
在 很 多 方面 都 有 用 ， 例 如 在 市 场 ， 营 销 ， 和 管理 方面 。 在 一 些 情况 下 ， 这 些 洞察 力 是 关于 时 
间 的 。 在 另外 一 些 情况 下 ， 洞 察 力 是 关于 顾客 分 类 的 。 还 有 一 些 情况 ， 润 察 力 是 关于 财政 和 
产品 的 。 

最 有 前 景 的 数据 分 析 之 一 就 是 面向 未 来 的 数据 分 析 。 但 是 大 多 数 商务 智能 环境 中 的 分 析 
是 面向 过 去 的 ， 因 为 数据 仓库 中 的 数据 是 历史 数据 。 有 一 些 分 析 利 用 数据 仓库 中 的 数据 为 基 
础 进行 未 来 规划 (预测 )。 

数据 分 析 把 信息 和 信息 能 力 带 到 商务 世界 ， 商 务 世界 中 以 前 不 可 能 有 这 些 数 据 。 数 据 分 
析 的 类 型 多 得 像 天 上 的 繁星 。 分 析 的 未 来 只 取决 于 分 析 师 和 开发 者 的 想象 力 。 

大 多 数 的 分 析 都 是 以 供 货 商 支 持 包 的 形式 建造 的 。 分 析 很 少 作为 自 产 自 销 的 东西 而 建造 。 
很 自然 ， 建 造 的 分 析 取 决 于 供 货 商 建造 分 析 的 技术 能 力 。 


14.11.2 ERP/SAP 


由 于 企业 资源 计划 (ERP) 供 货 商 的 支持 ，CIF 和 数据 仓库 的 能 力 得 到 了 加 强 。ERP 供 货 
商 发 现 ， 只 要 市 场 不 饱和 ， 开 发 操作 型 应 用 软件 是 个 很 不 错 的 生意 。 然 后 ，CIF 和 数据 仓库 就 
很 自然 地 与 传统 的 ERP 企 业 合并 了 。 这 方面 的 领头 羊 是 SAP 公 司 。SAP 公 司 不 但 在 市 场 份额 方 
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面 是 领 类 羊 ， 在 扩展 CIF 的 内 涵 方 面 也 是 一 个 先行 者 。 
以 下 是 SAP BW 最 近 的 一 些 创新 : 
* 通过 数据 仓库 到 近 线 数据 存储 的 扩展 ， 对 大 规格 数据 进行 支持 。 
“在 广阔 的 前 沿 分 析 上 的 进步 。 实 际 上 ， 在 服务 广度 上 ，SAP 超 过 了 其 他 的 对 手 。 
“通过 入 口技 术 对 数据 进行 访问 和 分 析 。 
* 在 R/3 领 域 对 商务 智能 的 扩展 。 建 造 一 个 SAP 数 据 仓 库 意 味 着 将 非 SAP 事 务 处 理 数 据 包 
括 到 数据 仓库 当中 。 
“提供 ETL 的 替代 品 。 除 了 升级 的 替代 品 ，SAP 还 提供 适 于 自己 的 SAP BW 产品 的 ETL 功 能 。 
从 其 遍布 世界 的 客户 ， 以 及 对 于 赋予 产品 的 能 力 和 创新 ，SAP 远 远 地 超 过 了 它 的 竞争 对 
手 ， 并 且 对 CIF 和 数据 仓库 做 出 了 实际 的 贡献 。 


14.11.3 非 结 构 化 数据 


很 多 年 以 来 ，CIF 和 数据 仓库 一 致 致力 于 处 理 结构 化 数据 。 当 然 ， 对 结构 化 数据 进行 检查 
处 理 的 确 可 以 得 到 很 多 有 用 的 信息 。 但 是 除了 有 结构 系统 以 外 ， 还 有 其 他 的 领域 ， 例 如 电子 
邮件 ， 电 话 对 话 ， 电 子 数 据 表 以 及 文档 等 等 。 对 于 非 结构 化 领域 ， 需 要 做 的 决策 也 是 完全 不 
同 的 。 

CIF 的 未 来 在 于 结构 化 数据 ， 也 在 于 非 结 构 化 数据 。 这 是 商务 智能 最 具 挑 战 也 最 有 趣 的 一 
个 方面 ， 就 是 在 结构 化 数据 与 非 结 构 化 数据 鹤 沟 之 间 建 起 一 座 桥 。 不 幸 的 是 ， 架 这 座 桥 的 难 
度 非常 大 。 袜 沟 的 一 侧 就 像 是 交流 电 (AC) ,而 另 一 侧 就 像 是 直流 电 (DC)。 由 于 它们 之 间 有 
着 本 质 的 不 同 ， 因 此 想 要 弥合 很 具有 挑战 性 。 

但 在 某 种 程度 上 ， 这 条 沟 还 是 可 以 弥合 的 。 一 旦 两 边 架 起 一 座 桥 ， 很 多 商务 智能 的 机 会 
就 会 涌现 出 来 。 

以 下 就 是 连通 非 结 构 化 数据 和 结构 化 数据 后 ， 出 现 的 商务 智能 机 会 : 

。CRM 加 强 一 一 非 结 构 化 数据 和 结构 化 数据 连通 后 ， 当 新 的 消费 者 信息 和 交流 数据 进入 

消费 者 统计 域 后 ， 就 可 以 360 度 全 视角 地 观察 消费 者 行为 习惯 。 

* 依从 准则 一 一 Sarbanes-Oxley, HIPAA 和 Base I (等 等 ) 需要 监督 当前 的 建议 ， 委 托 的 

事项 以 及 消费 者 和 可 能 的 顾 主 有 关 的 其 他 信息 。 通 过 系统 地 查看 信息 和 交互 ， 并 且 把 它 

们 融入 到 结构 化 数据 领域 ， 系 统 就 能 够 更 加 灵活 。 

“可 视 化 一 一 到 今天 ， 可 视 化 一 直 是 对 数字 型 数据 而 言 的 。 但 是 ， 为 何 文本 型 数据 不 能 可 

视 化 呢 ” 如 果 能 做 到 ， 对 信息 驾驭 的 广度 就 更 大 了 。 

实际 上 ， 基 本 上 没有 应 用 软件 涉及 数据 仓库 和 CIF 的 非 结 构 化 数据 。 


14.11.4 数据 量 


数据 仓库 和 CIF 的 历史 就 是 数据 量 不 断 增加 的 历史 。 以 下 就 是 数据 仓库 当中 的 数据 量 不 断 
加 大 的 原因 : 

“数据 仓库 中 存储 颗粒 状 的 ， 细 节 型 数据 

“数据 仓库 中 存储 历史 型 数据 

。 数据 仓库 中 存储 的 数据 来 自 于 多 种 不 同 的 渠道 

这 里 有 一 个 很 简单 的 等 式 : 





细节 一 历史 一 多 源 = 大 量 的 数据 
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今天 我 们 拥有 的 数据 相对 于 我 们 明天 要 拥有 的 数据 而 言 ， 简 直 是 非常 得 少 。 

由 于 多 种 原因 (经 济 原因 ， 数 据 使 用 ， 数 据 管理 )， 数 据 仓 库 的 存储 介质 将 不 仅仅 是 磁盘 。 
当然 在 今天 ， 把 数据 存储 在 磁盘 上 是 可 以 接受 的 。 将 来 ， 只 把 数据 存放 在 磁盘 就 不 够 了 。 在 
将 来 ， 在 较 经 济 的 媒介 存储 大 量 的 数据 ， 并 且 保 存 高 集成 度 的 数据 将 会 很 普遍 。 在 那 以 后 ， 
数据 仓库 将 无 限 增长 ， 而 且 不 会 超出 组 织 机 构 的 财政 预算 。 

尽管 经 济 因 素 主 要 决定 了 不 可 以 将 数据 存在 磁盘 上 上， 但 长 远 来 看 ， 经 济 将 不 会 是 唯一 有 
效 的 因素 。 另 一 个 决定 不 将 数据 存放 在 磁盘 上 的 因素 就 是 ， 对 数据 仓库 中 数据 的 访问 模式 ， 
与 对 OLTP 中 数据 的 访问 模式 完全 不 同 。 在 OLTP 环 境 中 ， 对 每 个 单元 的 数据 访问 一 般 是 随机 
的 ， 在 概率 上 也 是 相等 的 。 在 这 种 情况 下 ， 磁 盘 就 是 理想 的 选择 。 但 在 数据 仓库 中 ， 数 据 分 
为 两 大 类 : 常用 数据 和 非常 用 数据 。 对 于 非常 用 数据 而 言 ， 没 有 必要 把 它们 放 在 磁盘 上 。 

进一步 说 ， 如 果 非 常用 数据 放 在 海量 存储 媒介 上 ， 相 应 的 磁盘 存储 操作 和 维护 费用 就 减 
轻 了 。 

但 是 磁盘 生产 商 可 不 愿意 其 他 的 技术 霸占 市 场 ， 他 们 会 费 尽 心机 告诉 人 们 除了 磁盘 ， 其 
他 的 媒介 都 不 可 行 。 磁 盘 生 产 商 而 没有 与 时 俱 进 。 数 据 仓 库 有 各 种 自身 因素 ， 例 如 经 济 性 ， 
时 间 要 求 以 及 独特 的 使 用 习惯 。 在 长 远 看 来 这 些 因素 会 对 媒介 的 使 用 产生 决定 性 的 影响 。 

所 有 这 些 ， 就 是 数据 仓库 和 CIF 的 未 来 。 


14.12 小 结 


数据 仓库 的 成 型 ， 直 接 诛 因 是 企业 数据 模型 ， 间 接 原 因 是 最 终 用 户 的 需求 。 数 据 仓 库 的 
心脏 是 一 个 关系 型 数据 库 。 这 个 数据 库 是 直接 由 数据 模型 塑造 的 。 关 系 型 数据 模型 是 数据 重 
定型 的 基础 。 重 定型 的 数据 成 型 直接 来 源 于 最 终 用 户 对 信息 的 需求 。 

如 果 要 进行 繁重 的 统计 分 析 ， 建 议 建立 一 个 单独 的 探查 型 数据 仓库 。 如 果 间 或 进行 统计 
处 理 ， 就 有 可 能 在 现存 的 数据 仓库 上 进行 统计 分 析 。 

探查 型 数据 仓库 有 一 些 很 有 意思 的 属性 : 

* 它 是 数据 仓库 的 一 个 子 集 ， 一 般 包 含 便利 域 。 

* 外 部 数据 可 以 直接 进入 探查 型 数据 仓库 。 

* 它 可 以 截断 周期 性 进行 更 新 。 

探查 型 数据 仓库 是 基于 项 目的 。 这 意味 着 探查 型 数据 仓库 的 生命 是 暂时 的 ， 只 在 项 目 存 
在 的 时 候 存在 。 

数据 集 市 基本 上 不 可 以 与 数据 仓库 放 在 同一 个 机 器 上 。 把 数据 集 市 放 在 那里 非常 浪费 ， 
而 且 与 企业 控制 数据 的 需要 不 相符 。 

数据 进入 企业 后 是 有 生命 周期 的 ， 它 要 变 老 ， 通 过 不 同 的 方式 使 用 。 数 据 的 生命 周期 应 
与 数据 仓库 相 吻合 ， 也 应 与 支持 数据 仓库 的 部 件 相 吻 合 。 

数据 仓库 环境 中 的 测试 与 传统 的 操作 型 环境 中 的 测试 不 同 。 最 重要 的 原因 就 是 使 用 数据 
的 期 望 不 同 。 

对 数据 仓库 环境 中 的 数据 流 进行 跟踪 是 有 意义 的 。 在 元 数据 和 内 容 两 个 层面 都 需要 对 数 
据 进 行 跟踪 。 数 据 跟踪 对 许多 类 型 的 人 有 用 (如 最 终 用 户 ， 数 据 仓库 管理 员 和 维护 程序 员 )。 

数据 通过 数据 仓库 环境 的 时 候 有 一 定 的 速率 。 速 率 的 测算 是 从 数据 最 初 进入 环境 ， 直 到 
数据 可 以 提供 给 最 终 用 户 作 分 析 的 时 间 。 有 两 个 因素 影响 速率 。 对 数据 有 “ 推 ” 操 作 和 “ 拉 ” 
操作 。 对 数据 的 “ 推 ”操作 是 为 了 保障 无 论 何 时 需要 ， 数 据 都 是 可 以 使 用 的 。“ 拉 ”数据 出 现 
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在 需要 使 用 数据 的 时 候 ， 而 不 是 数据 准备 好 可 以 使 用 的 时 候 。 

数据 仓库 是 一 种 恰当 的 联系 ， 它 把 企业 信息 系统 环境 与 基于 网 络 的 电子 商务 环境 连接 起 
来 。 两 者 之 闻 的 接口 就 是 数据 从 网 络 环境 流入 粒度 管理 器 、， 再 从 粒度 管理 器 流入 数据 仓库 。 
反 过 来 ， 数 据 从 数据 仓库 流入 ODS。 到 ODS 之 后 ， 概 要 记录 形成。 网 站 就 可 以 高 效 地 访问 
ODS 和 概要 记录 。 

很 多 组 织 都 是 与 财政 组 织 一 道 开始 建造 数据 仓库 的 ， 其 中 一 个 弊端 就 是 财政 组 织 经 常 期 
望 在 两 个 环境 之 间 ， 数 据 能 够 精确 到 很 细 。 实 际 上 ， 数 据 从 应 用 软件 中 到 数据 仓库 时 ， 它 就 
从 应 用 环境 转型 到 企业 环境 了 。 

从 数据 仓库 出 发 演变 到 企业 信息 工厂 《CIF)。CIF 的 中 心 就 是 数据 仓库 。 环 绕 着 CIF 就 是 
体系 实体 ， 例 如 数据 集 市 ， 探 查 型 数据 库 ，ODS 等 等 。 从 CIF 演 变 出 政府 信息 工厂 (GIF)。 
GIF 适合 政府 的 需要 。CIF 和 GIF 之 间 有 很 多 的 相似 之 处 ， 但 是 也 有 很 多 根本 的 不 同 。 有 些 不 
同 之 处 是 为 了 满足 跨 体系 的 集成 需要 ， 或 安全 和 数据 的 时 间 视 野 的 需要 。 


第 15 章 数据 仓库 的 成 本 论证 和 投资 回报 


在 建立 数据 仓库 的 时 候 ， 不 可 避免 地 涌现 出 一 个 问题 : “我 这 些 钱 花 的 值 吗 ? ”数据 仓库 
的 架构 设施 并 不 便宜 。 组 织 中 刚 建 数据 仓库 的 时 候 ， 没 有 人 知道 要 得 到 些 什么 。 由 于 这 些 原 
因 ， 组 织 内 部 很 自然 地 有 人 怀疑 建立 数据 仓库 的 必要 性 。 


15.1 应 对 竞争 


建立 数据 仓库 的 一 个 简单 直接 的 理由 ， 就 是 指出 整个 业界 已 经 建立 了 多 少数 据 仓 库 。 很 
多 情况 下 ， 建 立 数据 仓库 只 是 为 了 在 市 场 中 保持 竞争 优势 “公司 ABC ， 我 们 的 老 对 手 ， 已 经 
建 了 数据 仓库 ， 我 们 也 得 建 一 个 "， 这 个 理由 是 非常 有 力 的 。 当 然 ， 如 果 建 立 和 使 用 得 当 ， 数 
据 仓 库 确实 能 带 来 更 大 的 市 场 份额 ,更 多 的 销售 额 以 及 更 多 的 利润 。 

但 是 有 时 管理 层 需要 更 多 的 投资 成 本 论证 。 他 们 需要 把 建 库 的 理由 白 纸 黑 字 地 摆 在 桌 
面 上 。 


15.2 宏观 上 的 成 本 论证 
说 明 建立 数据 仓库 的 论证 一 是 在 宏观 的 层面 上 ， 二 是 在 微观 的 层面 上 。 图 15-1 显 示 了 这 


。 两 个 不 同 的 视角 。 
宏观 层面 指 的 是 在 高 的 层次 上 讨论 。 这 样 的 讨论 可 能 《村 
是 ,“ 我 们 建立 了 数据 仓库 , 然后 公司 的 利润 增长 了 15%”， \W 


或 者 是 “我 们 建立 了 数据 仓库 ， 然 后 公司 的 股票 瀛 了 6 美 


了 宏观 方法 微观 方法 
元 ”"。 遗 憾 的 是 ， 这 个 层次 上 对 数据 仓库 和 公司 的 关系 进 

行 讨论 , 常常 是 华而不实 。 图 15-2 显 示 出 应 用 数据 仓库 后 ， 图 15-1 两 种 说 明 建立 数据 
公司 股价 的 变化 。 仓库 有 益 的 方法 


图 15-2 中 显示 ， 应 用 数据 仓库 后 股价 开始 攀升 。 
论据 可 能 是 ,“ 我 们 使 用 数据 仓库 以 后 ， 股 价 开始 升 
高 了 ”。 但 是 这 种 宏观 上 的 理由 没有 说 服 力 。 除 了 应 
用 数据 仓库 以 外 ， 还 有 很 多 其 他 的 原因 可 以 使 股价 升 
高 。 可 能 在 同一 时 期 ， 公 司 推出 了 新 的 产品 。 也 可 能 
股票 市 场 本 身 决定 了 股市 要 升 ， 有 时 股市 就 是 这 样 。 
相关 行业 的 竞争 可 能 不 那么 激烈 了 。 公 司 的 运营 也 许 
更 有 高 效 了 。 实 际 上 ， 有 很 多 的 原因 决定 股票 的 升 或 





者 降 。 建 立 数据 仓库 尽管 在 决策 上 非常 重要 ， 但 也 只 应 用 数据 仓库 
是 众多 影响 股票 升降 的 原因 之 一 。 图 15-2 对 照 数据 仓库 的 建立 和 
由 于 在 宏观 的 层面 上 ， 还 有 其 他 许多 强 有 力 的 因 公司 的 股票 价格 


素 ， 因 此 ， 用 宏观 上 的 理由 说 明 建立 数据 仓库 的 原因 是 很 困难 的 。 
由 于 这 些 原因 ， 微 观 上 的 理由 更 有 说 服 力 ， 更 加 充分 。 
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15.3 微观 上 的 成 本 论证 
为 了 给 数据 仓库 的 微观 论证 打 一 个 基础 ， 考 虑 两 个 公司 : 公司 A 和 公司 B。 如 图 15-3 所 示 。 





公司 A 





公司 B 


DA 





图 15-3 两 个 公司 


公司 A 和 公司 B 都 有 一 个 应 用 程序 ， 或 历史 数据 系统 。 操 作 型 应 用 程序 在 图 15-3 的 左面 。 
在 图 15-3 的 右面 表示 个 人 计算 机 。 这 人 台 计算 机 说 明 一 个 事实 ， 在 每 个 公司 都 有 对 信息 的 需求 。 
谈 到 操作 型 应 用 软件 的 基础 和 对 信息 的 需求 ， 公 司 A 和 公司 B 儿 乎 一 致 。 

两 个 公司 之 间 有 一 个 很 大 的 不 同 ， 就 是 公司 B 有 -个 数据 仓库 ， 如 图 15-4 所 示 。 
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图 15-4 公司 A 与 公司 B 之 间 唯 一 的 不 同 就 是 公司 B 有 一 个 数据 仓 产 
现在 考虑 两 个 公司 如 何 支 持 对 信息 的 新 需求 。 图 15-5 显 示 出 公司 A 对 新 需求 的 反应 。 








图 15-5 公司 A 要 得 到 一 些 新 的 数据 
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图 15-5 显 示 ， 为 了 对 新 的 信息 需求 做 出 反应 ， 公 司 A 需 要 回 到 操作 型 源 环 境 ， 并 且 找 到 支 
持 新 的 需求 相应 的 数据 。 

因此 ， 公 司 A 必须 做 什么 ?要 回 到 操作 环境 找到 所 需 数据 ， 需 要 做 哪些 事情 ?图 15-6 显 示 
出 所 要 做 的 事情 ， 
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图 15-6 需要 做 的 事情 是 写 一 个 新 的 报告 


15.4 来 自 遗 留 环境 的 信息 


为 了 支持 新 的 信息 需求 ， 公 司 A 必 须 回 到 操作 或 遗留 环境 。 回 到 操作 或 遗留 环境 的 第 一 步 
就 是 找到 所 需 的 遗留 数据 。 寻 找 遗 留 数 据 可 能 很 难 ， 因 为 遗留 数据 经 常 是 不 存档 ， 或 者 是 部 
分 存档 。 甚 至 寻找 合适 的 数据 都 不 是 一 件 容 易 的 事情 。 在 很 多 情况 下 ， 需 要 做 出 猜 出 。 猜 测 
就 会 有 对 错 。 有 时 ， 为 了 做 出 合适 的 猜 测 ， 不 得 不 查看 源 代 码 。 还 有 一 些 情 况 ， 甚 至 源 代 码 
也 不 存在 。 所 以 ， 回 头 看 操作 型 或 者 是 遗留 系统 不 是 一 件 简单 直接 的 事 。 

即使 源 代码 和 文档 存在 ， 老 的 操作 和 遗留 环境 也 是 用 过 去 的 技术 建立 的 。 很 可 能 ， 遗 留 
应 用 软件 是 用 工具 开发 的 ， 例 如 集成 数据 管理 系统 (IDMS ) ， 信 息 管理 系统 (IMS)， 虚 拟 存 
储 访问 管理 (VSAM)， 用 户 信息 控制 系统 (CICS)，Adaba 和 Model 204。 在 当今 ， 找 到 能 够 
解读 这 些 技术 的 人 都 很 难 。 随 着 时 间 流 逝 ， 懂 这 些 技术 的 人 越 来 越 少 。 所 以 ， 即 使 文档 井然 
有 序 ， 回 过 头 去 解读 这 些 技术 也 不 是 一 件 容 易 的 事 。 

因此 ， 要 处 理 建立 操作 和 遗留 环境 所 用 的 多 种 技术 不 是 一 件 容易 的 事 。 一 旦 数据 处 于 操 
作 和 遗留 环境 ， 就 必须 要 集成 。 多 源 数 据 集成 很 困难 ， 因 为 从 设计 上 而 言 ， 那 些 老 的 遗留 系 
统 很 难 彼此 融合 。 物 理 上 的 数据 特征 ， 编 码 值 以 及 数据 结构 都 不 同 。 但 集成 最 难 的 方面 恐怕 
就 是 数据 定义 的 校正 了 。 在 一 个 系统 ,“ 顾 客 ”代表 所 有 的 当前 顾客 。 在 另 一 个 系统 中 ,“ 顾 
客 ” 代 表 来 自 于 拉丁 美洲 的 所 有 的 当前 和 过 去 的 顾客 。 在 第 三 个 系统 中 ,“ 顾 客 ” 代 表 市 场 中 
六 在 的 顾客 。 这 些 顾客 简单 综合 到 一 起 就 像 一 锅 粥 ， 毫 无 意义 。 

假设 有 文档 ， 那 些 老 技术 也 能 被 解释 ， 并 且 集 成 成 功 了 ， 下 一 步 就 是 筹备 数据 。 第 一 个 
数据 源 来 的 数据 马上 可 以 用 。 来 自 第 二 个 数据 源 的 数据 星期 三 早上 9 点 以 后 可 以 用 。 第 三 个 数 
据 源 的 数据 当月 的 一 号 以 后 可 用 。 为 了 使 各 个 数据 表 相互 协调 ， 有 必要 创立 一 个 筹备 区 。 

一 旦 数据 进入 筹备 存储 区 中 ， 就 可 以 用 于 报告 。 直 到 现在 终于 可 以 制作 报告 了 。 天 哪 ! 

以 上 撕 述 的 过 程 ， 无 论 是 哪 一 种 形式 ， 都 是 公司 A 要 建立 一 个 信息 基础 所 必需 经 过 的 。 在 
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某 些 情 况 下 ， 通 过 这 个 过 程 不 是 很 难 。 但 在 另 一 些 情况 下 ， 这 个 过 程 可 能 会 比较 曲折 。 
15.4.1 新 信息 的 成 本 

进行 这 么 多 的 操控 需要 多 少 钱 昵 ?这 取决 于 多 种 因素 ， 例 如 遗留 应 用 软件 的 数量 ， 这 些 
软件 的 文档 ， 这 些 软件 相关 的 技术 以 及 需求 的 复杂 性 。 由 于 这 些 原因 ， 完 成 需求 的 花费 从 五 
十 万 美元 到 二 百 万 美元 不 等 。 那 么 ， 整 个 过 程 又 需要 多 长 时 间 ? 答案 是 ， 可 能 要 花 6 个 月 到 两 
年 ， 由 于 其 他 的 特殊 因素 ， 时 间 也 可 能 更 久 。 
15.4.2 用 数据 仓库 收集 信息 


现在 我 们 来 考虑 为 公司 B 做 一 个 新 报告 需要 多 长 时 间 。 图 15-7 所 示 为 公司 B 的 信息 环境 。 
图 15-7 中 显示 , 从 数据 仓库 中 做 一 个 报告 简洁 高 效 , 甚 花费 大 概 是 1000 美 元 到 25 000 美 元 。 
那么 ， 这 个 报告 需 多 长 时 间 完 成 ?答案 是 30 分 钟 到 10 天 (最 坏 的 情况 )。 

















图 15-7 有 数据 仓库 的 情况 下 获得 新 的 数据 


15.4.3 成 本 比较 


获得 信息 的 成 本 不 同 ， 能 很 好 地 说 明 建 立 数据 仓库 的 成 本 理由 基础 。 

为 了 对 数据 作 新 的 分 析 ， 我 们 来 考虑 : 

* 无 数据 仓库 一 一 500 000 美 元 ~ 2 000 000 美 元 ; 6 个 月 - 2 年 ; 

* 数据 仓库 一 1000 美元 ~ 25 000 美 元 ;30 分 钟 ~ 10 天 。 

从 这 些 不 同 之 处 ， 可 以 知道 建立 数据 仓库 能 大 大 地 降低 信息 的 成 本 。 | 

光 看 这 些 数据 ， 可 能 不 敢 相信 它 们 之 间 有 这 人 么 大 的 不 同 。 当 然 ， 公 司 B 中 建立 数据 仓库 的 
花费 还 设 有 算 进 去 。 如 果 要 进行 一 个 恰当 的 分 析 ， 就 不 应 该 不 算数 据 仓库 的 成 本 。 

要 理解 建立 数据 仓库 所 必须 做 的 事情 ， 我 们 来 考虑 图 15-8 所 示 的 活动 。 


15.4.4 建立 数据 仓库 


要 建 一 个 数据 仓库 ， 开 发 者 必须 做 如 下 的 事情 : 
* 回 到 遗留 或 操作 型 环境 中 寻找 数据 
* 解决 那些 有 关 老 技术 的 问题 
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* 数据 找到 后 ， 立 即 集成 
* 筹备 数据 











图 15-8 有 数据 仓库 的 情况 下 要 做 的 事情 


换 旬 话说， 开发 人 员 要 做 的 事情 几乎 与 公司 A 中 的 同行 一 样 。 除 了 做 报告 本 身 这 个 活动 不 
同 以 外 ， 建 立 数据 仓库 的 相关 活动 与 做 一 个 新 的 报告 或 分 析 相 关 的 活动 基本 一 致 。 要 做 一 个 
恰当 的 ， 公 平 的 比较 ， 建 立 数据 仓库 所 需 的 花费 就 必须 算 入 整个 花费 之 中 。 

那么 ,建立 数据 仓库 所 要 的 花费 是 多 少 ? 答案 取决 于 数据 源 系统 ， 信 息 的 大 小 和 复杂 程 
度 ， 基 础 数据 源 系统 所 用 的 技术 ,文档 是 不 是 做 得 很 好 等 等 。 在 这 个 例子 中 ， 数 据 仓库 的 成 
本 应 当 是 一 百 万 。 这 个 数据 是 与 例子 中 其 他 数据 的 量 相对 应 的 。 

为 了 进行 一 个 真正 的 比较 ， 我 们 还 应 该 考虑 另外 一 个 因素 。 这 个 因素 就 是 ， 公 司 一 般 需 
要 的 报告 不 会 只 是 一 个 。 公 司 越 大 ， 对 信息 的 需求 也 越 多 。 财 政 方面 是 一 个 角度 ， 会 计 又 是 
-- 个 角度 ， 销 售 部 也 有 一 个 角度 。 实 际 上 ， 每 一 个 在 公司 的 人 都 要 察看 数据 ， 而 且 看 数据 的 
角度 都 不 同 。 公 司 需要 通过 不 同 的 方式 察看 数据 。 而 且 ， 随 着 公司 经 营 的 外 部 商务 环境 的 改 
变 ， 这 些 察看 方式 也 要 随 之 改变 。 别 忘 了 ， 商 务 环境 无 时 无 刻 不 在 改变 。 


15.4.5 完整 的 情况 图 


一 旦 把 数据 仓库 的 花费 以 及 通过 不 同 角度 察看 相同 数据 的 花费 加 入 整个 成 本 之 中 ， 一 套 
真正 的 成 本 公式 就 成 形 了 。 如 图 15-9 所 示 。 

图 15-9 中 显示 ， 对 于 信息 有 多 种 不 同 的 需要 。 其 中 也 显示 出 数据 仓库 的 成 本 以 及 信息 成 
本 的 不 同 。 公 司 A 中 ， 每 次 一 旦 需要 数据 时 ， 就 要 重复 地 建造 相关 的 基础 架构 ， 这 大 大 地 提高 
了 信息 的 成 本 。 一 旦 数据 仓库 建 好 ， 成 本 就 大 大 地 降低 了 。 有 了 数据 仓库 ， 信 息 的 成 本 就 是 
报告 的 成 本 ， 如 果 没 有 数据 仓库 ， 为 了 做 报告 ， 就 必须 建立 所 需 的 基础 架构 。 

换 名 话说， 如果 有 数据 仓库 ， 只 需 一 次 性 建立 得 到 数据 所 需 的 基础 架构 ， 而 不 用 每 一 次 
需求 数据 ， 都 要 建立 一 次 基础 架构 。 这 真正 说 明了 建立 数据 仓库 的 经 济 意义 。 图 15-9 中 显示 
了 有 数据 仓库 和 没有 数据 仓库 的 情况 下 ， 每 种 情况 的 主要 花费 。 


15.4.6 得 到 数据 的 障碍 
图 15-9 中 还 有 一 个 方面 值得 一 提 。 没 有 数据 仓库 的 公司 ， 在 这 里 是 公司 A， 真 的 花 图 中 那 
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么 多 钱 吗 ? 答案 是 ， 他 们 可 能 对 一 些 重要 的 数据 视图 花 钱 。 但 是 一 般 的 公司 并 没有 资金 和 耐 
心 用 来 建立 图 15-9 中 所 示 的 基础 架构 。 于 是 实际 情况 就 是 ， 信 息 源 并 没有 完整 地 建立 ， 这 就 
带 来 了 所 谓 的 “得 到 数据 的 障碍 ”问题 。 机 构 中 的 大 部 门 只 有 少量 不 完整 的 信息 。 这 样 的 环 
境 中 ， 经 常 听见 的 话 就 是 ,“ 如 果 我 能 得 到 信息 ， 我 才 可 以 知道 信息 在 哪里 ”。 

如 图 15-9 中 没有 数据 仓库 的 情况 所 示 ， 机 构 并 不 真正 地 建立 一 个 大 的 基础 架构 。 这 又 从 
反面 论证 了 数据 仓库 的 作用 。 有 了 数据 仓库 ， 获 得 信息 所 要 的 花费 就 低 多 了 。 因 此 ， 数 据 仓 
库 使 企业 可 以 获得 它们 原本 在 经 济 上 无 法 负担 的 数据 。 
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图 15-9 数据 仓库 的 经 济 意 义 
15.5 数据 的 时 间 价 值 


数据 仓库 还 带 来 一 个 好 处 ， 尽 管 这 个 好 处 不 可 以 用 金钱 来 衡量 。 数 据 仓 库 大 大 地 降低 了 
得 到 信息 所 需 的 时 间 。 图 15-10 显 示 出 了 这 一 点 。 
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图 15-10 时 间 因 素 是 非常 重要 的 ,但 是 很 难 量化 
图 15-10 显 示 ， 如 果 没 有 数据 仓库 ， 从 IT 环境 中 得 到 新 的 数据 需要 更 长 的 时 间 。 但 有 了 数 
据 仓 库 ， 这 个 时 间 就 能 大 大 缩短 。 由 于 需求 不 同 ， 同 时 由 于 数据 仓库 中 数据 的 存储 地 点 不 同 ， 
得 到 新 信息 所 需 的 时 间 从 30 分 钟 ， 到 5 天 或 10 天 不 等 。 
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信息 的 速度 


假设 有 一 天 ， 商 务 主管 走 进 办 公 室 问 IT 人 员 要 新 的 信息 。 如 果 没 有 数据 仓库 ，IT 人 员 要 
花 一 年 得 到 这 些 新 的 信息 。 一 年 以 后 ， 这 个 员工 走 进 主管 的 办 公 室 提交 新 的 报告 。 到 这 个 时 
候 ， 主 管 已 经 把 这 件 事 忘 得 一 干 二 净 ， 已 经 完全 记 不 得 当时 为 何 要 这 些 信息 。 主 管 甚至 忘记 
当时 为 何 需 要 这 些 信息 。 由 于 得 到 新 数据 所 需 的 时 间 太 长 ， 信 息 的 价值 也 荡然 无 存 了 。 

现在 ,我 们 考虑 有 数据 仓库 的 情况 。 商 务 主管 走 进 办 公 室 向 IT 人 员 要 新 的 信息 。 半 个 小 
时 后 ，IT 人 员 做 出 了 答复 。IT 人 员 当 天 就 走 进 主管 的 办 公 室 ， 提 交 了 所 需 的 信息 。 这 个 信息 
当然 还 有 意义 ， 还 能 用 来 解决 主管 所 要 解决 的 问题 。 有 了 新 信息 ， 主 管 作 决 定时 就 有 可 参考 
的 东西 了 。 

这 就 引出 了 信息 时 间 价值 的 问题 。 赁 直觉 ， 信 息 能 越 快 地 追踪 和 计算 ， 就 越 有 价值 。 确 
实 存在 一 个 点 ， 过 了 这 个 点 ， 信 息 就 没有 意义 了 。 有 了 数据 仓库 ， 数 据 能 非常 快 地 访问 。 没 
有 数据 仓库 ， 数 据 的 访问 比较 缓慢 。 

数据 仓库 大 大 地 增加 了 数据 的 时 间 价 值 。 在 一 些 情况 下 ， 信 息 的 时 间 价 值 比 它 的 原始 成 
本 更 加 重要 。 不 幸 的 是 ， 其 价值 很 难 用 金钱 来 衡量 。 


15.6 集成 的 信息 


信息 的 原始 成 本 和 时 间 价 值 是 证 明 数 据 仓 库 的 投资 有 意义 的 两 个 重要 原因 。 但 相应 的 原 
因 不 只 两 个 ， 还 有 其 他 的 间接 原因 。 我 们 来 思考 数据 集成 的 价值 。 

图 15-11 显 示 ， 数 据 在 数据 仓库 当中 集成 了 ， 但 是 在 应 用 环境 中 没有 集成 。 

图 15-11 也 显示 ， 在 操作 环境 和 遗留 环境 中 没有 进行 数据 集成 。 企 业 认为 数据 集成 是 有 意 
义 的 ， 而 集成 后 的 数据 就 在 数据 仓库 之 中 。 


>t 
2 一 


图 15-11 遗留 系统 中 ， 数 据 没 有 和 集成。 有 数据 仓库 ， 则 可 以 查看 集成 的 数据 


例如 ， 我 们 考虑 用 户 数据 。 一 旦 用 户 数据 集成 后 ， 就 有 各 种 不 同 的 可 能 : 

“ 跨 区 销售 

* 察看 顾客 的 生命 周期 ， 根 据 顾 客 的 位 置 和 其 期 望 进行 销售 

* 基于 顾客 本 身 和 其 他 顾客 的 关系 进行 销售 

“基于 顾客 家 庭 进行 销售 

总 之 ， 只 要 围绕 每 个 顾客 有 很 多 集成 的 数据 ， 就 可 以 有 多 种 不 同 的 接触 用 户 的 机 会 。 

在 遗留 和 操作 环境 中 ， 数 据 可 就 没有 这 么 大 的 功效 了 。 最 终 用 户 必 须 以 数据 管理 员 和 数 
据 库 管 理 员 的 身份 察看 遗留 和 操作 环境 中 的 数据 。 一 般 的 终端 分 析 人 员 已 经 有 很 多 的 事情 要 
做 了 ， 他 们 哪里 愿意 学 这 些 操 作 技 能 。 
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由 于 灌 在 的 商业 机 会 ， 由 于 数据 集成 的 价值 ， 数 据 仓库 的 价值 还 有 一 个 方面 ， 就 是 历史 
数据 。 


15.6.1 历史 数据 的 价值 


考虑 操作 或 者 遗留 环境 中 的 历史 数据 ， 如 图 15-12。 操 作 环 境 中 的 许多 地 方 ， 处 理性 能 是 

至 关 重 要 的 。 如 果 操 作 型 的 处 理 表现 不 佳 ， 节 终 用 户 就 

会 觉得 系统 插 失 败 的 。 因 此 ， 在 操作 环境 系统 中 ， 处 理 

性 能 至 关 重 要 。 总 
那么 ， 系 统 程序 员 要 做 一 些 什么 事情 来 所 高 处 理性 

能 昵 。 答 案 是 ， 系 统 程序 员 要 做 许多 的 事情 ， 但 是 其 中 。“ 

最 重要 的 事情 之 一 就 是 把 历史 数据 从 处 理 环境 中 移出 。 ”图 15-12 坦 留 环境 没有 存储 历史 数据 

移 走 历史 数据 的 原因 是 ， 它 会 使 系统 的 性 能 下 降 。 历 史 人 

数据 越 多 ， 系 统 的 性 能 就 越 低 。 因 此 ， 系 统 程序 员 要 做 

的 最 重要 的 事情 之 ， 就 是 尽 可 能 早 地 将 历史 数据 从 操作 环境 中 移出 。 


15.6.2 历史 数据 和 客户 关系 模型 


历史 数据 对 信息 处 理 有 非常 重要 的 价值 。 考 虑 其 中 的 一 个 价值 ， 即 在 客户 关系 模型 (CRM ) 
环境 中 的 作用 。 在 CRM 中 ， 信 息 是 以 用 户 为 中 心 的 。 有 了 CRM ， 就 能 更 好 地 理解 顾客 。 

考虑 顾客 的 特性 。 世 界 上 所 有 的 消费 者 都 是 有 习惯 的 。 习 惯 形成 较 早 ， 并 且 会 伴随 他 们 
一 生 。 习 惯 几 乎 涵盖 了 他 们 的 一 切 。 早 期 形成 的 习惯 有 如 下 的 内 容 : 

， 所 吃 的 食物 

。 所 穿 的 衣服 

。 住 所 

。 驾驶 的 汽车 

。 所 受 的 教育 

“收入 

。 付 款 的 方式 

。 投 资 的 方式 

“度假 的 方式 

。 结 婚 以 及 生育 情况 

。 省 钱 的 方式 

。 工 作 的 方式 等 等 

消费 者 早期 形成 的 习惯 将 会 在 很 大 程度 上 影响 未 来 的 行为 习惯 。 因 此 ， 历 史 数 据 非常 有 
用 ， 因 为 它 是 决定 消费 者 未 来 的 基础 。 换 句 话 说 ， 公 司 如 果 能 更 好 地 理解 消费 者 的 历史 ， 就 
可 以 更 好 地 向 他 们 提供 产品 和 服务 。 数 据 仓 库 正 是 存储 历史 数据 的 一 个 理想 的 地 方 。 

所 以 ， 历 史 数 据 也 是 数据 仓库 很 有 意义 的 一 个 方面 。 


15.7 小 结 





从 宏观 的 角度 来 讲 ， 由 于 影响 组 织 机 构 的 因素 有 很 多 ， 因 此 ， 从 这 个 角度 来 阐明 数据 仓 
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库 的 意义 是 不 容易 的 。 微 观 的 角度 是 一 个 相对 来 讲 容易 的 人 口 。 

为 了 从 微观 的 角度 说 明 这 个 问题 ， 我 们 考虑 两 个 公司 一 个 公司 没有 数据 仓库 ， 另 一 
个 公司 有 数据 仓库 。 没 有 数据 仓库 的 公司 信息 的 成 本 相对 于 有 数据 仓库 的 公司 而 言 ， 要 高 出 
很 多 。 而 且 ， 数 据 仓库 大 大 地 增加 了 信息 的 时 间 价 值 ， 提 供 了 一 个 集成 数据 的 平台 。 最 后 ， 
数据 仓库 为 历史 数据 提供 了 一 个 方便 的 存储 地 。 历 史 数据 为 信息 添加 了 更 多 的 价值 。 








第 16 章 ”数据 仓库 和 ODS 


访问 数据 仓库 所 需 的 时 间 永 远 不 能 用 毫秒 来 计算 。 由 于 数据 仓库 中 数据 的 特性 ,数据 的 
数量 以 及 使 用 数据 时 的 工作 量 ， 数 据 仓库 不 适合 应 用 于 OLIP 过 程 。 访 问 数据 仓库 在 1 秒 以 下 
的 响应 时 间 从 体系 结构 上 来 讲 并 不 可 行 。 

但 实际 上 ， 低 于 1 秒 的 响应 时 间 在 很 多 操作 中 很 有 意义 。 很 多 商务 事务 需要 非常 快 的 响应 
时 间 ， 当 然 这 些 事务 不 能 访问 数据 仓库 。 如 果 必 须要 求 低 于 1 秒 的 响应 时 间 ， 或 者 是 要 访问 集 
成 的 DSS 数据 ， 可 以 通过 一 种 叫 操 作 数 据 存储 【ODS ) 的 结构 来 实现 ， 这 种 结构 能 提供 高 性 
能 的 处 理 。 

ODS 不 像 是 数据 仓库 ， 是 可 选 的 。 有 一 些 组 织 有 ODS， 而 另 一 些 组 织 没 有 。 是 否 需要 
ODS 完 全 取决 于 组 织 本 身 以 及 所 处 理 的 工作 。 


16.1 互补 的 结构 


ODS 和 数据 仓库 在 很 多 方面 都 是 互补 的 。 它 们 都 处 于 操作 环境 以 外 ， 都 支持 DSS 处 理 ， 
都 使 用 集成 数据 ， 因此， 人们 经 常 认 为 ODS 和 数据 仓库 是 互补 的 。 数据 在 ODS 和 数据 仓库 之 
间 双 向 地 交流 。 在 一 些 情况 下 ，ODS 支 持 数据 仓库 。 在 另 一 些 情况 下 ， 数 据 仓库 支持 ODS 。 
但 是 ，ODS 毕 竟 与 数据 仓库 在 物理 结构 上 不 同 。ODS 无 论 如 何 也 不 能 处 于 数据 仓库 当中 。 

与 数据 仓库 环境 不 同 ，ODS 设 计 为 高 性 能 、 实 时 处 理 。 图 16-1 显 示 出 两 者 的 不 同 。 





图 16-1 ODS 能 提供 高 性 能 的 响应 时 间 


ODS 在 设计 上 能 够 满足 响应 时 间 为 2~3 秒 的 事务 。 它 有 几 个 特性 用 来 支持 这 样 快 速 的 响应 
时 间 ， 包 括 : 

*， 将 工作 负载 分 成 不 同 的 处 理 模式 。 当 事务 需求 的 数据 很 少时 ，ODS 支 持 高 性 能 的 处 理 。 

当 事 务 需 要 大 量 的 数据 时 ，ODS 的 处 理 时 间 会 比较 长 。 

"ODS 中 的 一 些 数据 是 为 高 性 能 的 事务 处 理 过 程 设 计 的 。 其 他 的 数据 是 为 灵活 以 及 集成 访 

问 设 计 的 。 
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* 处 理 升 级 过 程 时 ， 要 使 用 小 的 事务 ， 每 个 事务 消耗 少量 的 资源 。 
16.1.1 ODS 中 的 升级 


数据 仓库 的 一 个 非常 明显 的 特性 就 是 不 进行 升级 。 数 据 仓库 由 许多 有 限 的 数据 快照 组 成 。 
一 个 快照 存储 好 以 后 ， 数 据 仓 库 中 的 数据 就 不 变化 了 。 如 果 现 实 世 界 中 的 数据 发 生变 化 ， 就 
对 数据 进行 一 个 新 的 快照 ， 然 后 放 入 数据 仓库 当中 。 

ODS 环境 中 的 数据 不 是 这 样 。 在 ODS 中 , 数据 的 更 新 非常 常见 ， 而 且 数 据 的 更 新 是 可 行 的 。 
假设 ODS 当中 有 一 个 数据 记录 , 其 值 是 5 970.12 美 元 。 如 果 发 生变 化 , 它 可 以 变 为 6 011.97 美 元 。 
这 个 值 不 用 任何 快照 就 可 以 在 ODS 中 改变 。 

它们 之 间 数 据 特征 的 不 同 可 以 用 另 一 种 方式 来 解释 : ODS 中 的 数据 是 “实时 值 ”， 但 是 数 
据 仓 库 当 中 的 数据 却 是 “历史 值 ”。 也 就 是 说 ， 如 果 访 问 ODS， 能 找到 关于 你 所 找 话 题 的 最 新 
信息 。 如 果 你 访问 数据 仓库 ， 你 找到 的 就 是 历史 信息 记录 。 


16.1.2 历史 数据 与 ODS 


由 于 两 种 环境 之 间 本 质 的 不 同 ，ODS 当 中 只 能 找到 有 限 的 历史 数据 ， 但 数据 仓库 中 的 历 
史 数 据 几乎 是 无 限 的 。 图 16-2 显 示 在 这 一 点 上 两 者 的 
不 同 。 国 数据 仓库 
由 于 历史 数据 和 实时 数据 非常 不 同 ， 因 此 ， 使 用 
实时 数据 的 应 用 软件 在 ODS 上 运行 ， 而 不 是 在 数据 仓 Dm 2 
库 上 运行 。 一 般 情况 下 ，ODS 中 的 历史 数据 一 般 不 会 后 
超过 一 个 月 。 然 而 ， 数 据 仓库 中 的 历史 数据 可 能 会 保 
存 10 年 。 图 16-2 ODS 中 只 包含 有 限 数 量 的 历史 数据 
数据 仓库 中 的 数据 是 按照 事件 的 历史 记录 存储 的 。 例 如 ， 数 据 仓库 包括 如 下 的 信息 : 
。 某 人 的 每 次 购买 记录 
。 制 造 商 的 每 次 发 货 记 录 
。 银 行 顾客 所 写 支票 的 每 个 记录 
。 顾客 打 电话 的 每 次 记录 
。 美 国 各 个 电影 院 所 放 的 每 一 场 电影 的 记录 
由 此 可 以 知 遵 ， 数 据 仓 库 就 是 历史 和 细节 型 数据 存放 的 地 方 。 


16.1.3 概要 记录 


ODS 中 的 记录 一 般 称 为 “概要 记录 ”。 概 要 记录 是 对 客户 的 数据 进行 多 次 观察 ， 分 析 概 括 
而 得 出 的 。 

例 和 如， 孝 虑 顾客 Lynn Inmon， 以 下 是 为 她 创建 的 概要 记录 : 

。 一 个 月 买 一 次 衣服 

。 整 个 星期 都 得 商店 

* 喜欢 穿 蓝 色 的 丝 质 上 衣 

* 偶尔 买 些 日 用 品 

* 通常 成 批 地 买 东西 

。 不 买 酒精 饮料 


ODS 
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“每 次 买 日 用 品 大 概要 花 200 美 元 

“每 三 星期 进行 一 次 疹 椎 指 压 治疗 

* 每 年 看 一 次 眼 医 

。 每 5 年 飞 辆 新 车 

* 5 个 月 检修 一 次 汽车 

“不 抽烟 

。 喜 欢 喝 白 葡 萄 酒 

* 按时 付款 

要 建立 ODS 中 的 概要 记录 ， 需 要 察看 数据 仓库 中 的 许多 细节 型 历史 数据 。 

ODS 中 概要 记录 的 意义 在 于 能 够 快速 访问 。 没 有 必要 去 查 儿 百 个 历史 记录 ， 以 得 到 关于 
Lynn Inmon 的 信息 。 而 且 ， 概 要 记录 中 还 能 存放 
不 同类 型 的 信息 。 这 些 信息 当中 有 些 是 关于 购买 
习惯 的 ， 有 些 是 关于 付款 习惯 的 ， 另 一 些 是 关于 


个 人 喜好 的 。 换 名 话说 ， 从 概要 记录 中 能 简单 地 A 


捕获 大 量 的 数据 ， 这 些 数据 一 旦 被 捕获 ， 相 关 信 
息 能 很 方便 地 快速 访问 。 站 一 


图 16-3 显 示 ， 概 要 记录 是 从 多 次 对 数据 仓库 的 ops 
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细节 观察 当中 得 到 的 。 os 
16.2 不 同 种 类 的 ODS 存储 的 概要 记录 


ODS 一 共有 四 种 〈 如 图 16-4): 种 类 1， 种 类 2， 种 类 3 和 种 类 4。OPDS 的 分 类 取决 于 数据 到 
达 ODS 的 速度 有 多 快 ， 即 从 事务 发 生 到 事务 到 达 ODS 所 用 时 间 的 长 度 。 


天 一 一 一 一 一 二 国 数据 仓库 


se 国 /pw 


种 类 3 OU 一 一 于 > 





ODS 
图 16-4 通过 更 新 的 速度 可 以 将 ODS 分 为 不 同 的 种 类 


不 同 种 类 的 ODS 定 义 如 下 : 

。 种 类 1: 从 操作 升级 到 数据 进入 ODS 所 用 的 时 间 为 数 毫秒 。 在 第 1 种 ODS 中 ， 从 操作 事务 
到 更 改 9DS 所 用 的 时 间 是 透明 的 。 变 化 非常 快 ， 以 至 于 最 终 用 户 不 知道 其 间 有 一 个 数 毫 
秒 的 间隔 。 两 个 环境 保持 同步 。 

“种 类 2: 从 操作 执行 到 ODS 更 新 所 用 的 时 间 为 数 小 时 。 最 终 用 户 当然 可 以 觉察 到 ODS 中 
的 数据 与 操作 环境 中 的 数据 有 不 同 。 

“ 种 类 3: 对 ODS 中 的 数据 与 数据 仓库 中 的 数据 进行 调节 需要 一 夜 的 间隔 ， 甚 至 更 长 。 

“ 种 类 4: 调节 ODS 中 的 数据 与 其 数据 源 要 用 一 段 较 长 的 时 间 一 一 几 个 月 甚至 几 年 。 典 型 
的 情况 下 ， 在 第 4 种 ODS 中 ， 数 据 源 为 数据 仓库 ， 当 然 也 可 能 有 其 他 的 数据 源 。 
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第 1 种 ODS 非常 少见 。 实 际 商务 当中 基本 上 没有 需求 。 第 1 种 ODS 比较 昂贵 ， 且 技术 上 难 
以 实现 。 第 1 种 ODS 的 一 个 例子 就 是 航空 订 票 系统 。 这 种 ODS 问题 (除了 复杂 度 和 成 本 以 外 ) 
没有 时 间 集 成 数据 。 原 因 是 ， 对 更 新 速度 和 同步 要 求 太 高 ， 系 统 没有 时 间 进 行 集成 。 由 于 这 
个 原因 ， 第 1 种 ODS 一 般 只 用 于 能 从 一 种 环境 转移 到 另 一 种 环境 的 简单 操作 。 

第 2 种 ODS 比较 常见 。 在 这 种 ODS 当中 ， 在 数据 从 操作 环境 进入 ODS 环境 以 前 ， 有 充分 的 
时 间 对 其 进行 集成 。 第 2 种 ODS 的 一 个 例子 就 是 顾客 的 姓名 和 地 址 。 顾 客 的 姓名 和 地 址 不 经 党 
改变 。 如 果 用 户 的 地 址 发 生变 化 ， 即 使 用 三 四 个 小 时 来 处 理 也 不 会 对 整个 商务 运作 产生 影响 。 
第 2 种 ODS 能 用 通常 的 技术 建造 ， 并 且 难 度 也 不 是 很 大 。 与 第 1 种 ODS 相 比 ， 这 种 ODS 要 便宜 。 

第 3 种 ODS 所 用 的 更 新 周期 比 第 2 种 要 长 。 这 种 ODS 的 更 新 时 间 是 一 夜 或 者 更 长 。 其 中 的 
一 个 例子 就 是 保险 单 的 销售 ， 其 发 生 的 概率 较 低 。 调 节 ODS 环 境 和 操作 环境 所 用 的 时 间 可 能 
会 是 一 周 。 第 3 种 ODS 能 用 普通 的 技术 建造 ， 相 对 而 言 也 不 是 很 贵 。 

第 4 种 ODS 所 用 的 调节 时 间 非 常 长 。 这 种 ODS 可 能 是 从 特殊 报告 或 特殊 项 目的 基础 上 建造 
的 。 很 多 情况 下 ， 建 造 这 种 ODS 只 有 一 次 。 在 其 他 情况 下 ， 对 这 种 ODS 的 调节 会 以 年 为 基础 
人 们 一 般 不 期 望 第 4 种 ODS 和 数据 仓库 或 其 他 源 之 间 能 很 快 地 调节 。 一 个 例子 是 每 年 两 次 对 消 
费 者 的 购买 习惯 进行 研究 ， 数 据 来 源 是 数据 仓库 ， 并 且 结 果 导 入 ODS 中 。 

尽管 大 多 数 ODS 属 于 这 四 种 之 一 ， 也 可 能 是 其 中 一 部 分 记录 属于 这 种 ， 而 另 一 部 分 记录 
数据 属于 另 一 种 。 这 样 的 记录 也 是 常见 的 。 


16.3 数据 库 设计 一 一 一 种 混合 的 方式 


ODS 是 用 一 种 混合 的 方式 设计 的 。 图 16-5 表 示 ODS 的 一 部 分 设计 是 关系 型 的 ， 而 另 一 部 
分 是 多 维 的 。 

如 果 对 灵活 性 的 要 求 高 一 些 ， 一 般 用 关系 型 设计 。 je 
当 性 能 是 最 重要 的 因素 时 ， 用 多 维 设计 
这 种 二 分 设计 常 使 数据 库 设计 人 员 进 退 两 难 。 这 7 
就 像 是 要 将 堪 一 部 分 刷 成 黑 的 ， 另 一 部 分 刷 成 白 的 ， 
最 后 说 这 绪 墙 是 灰 的 。 由 于 需求 因素 ，ODS 的 设计 是 [ 
在 灵活 性 与 性 能 要 求 之 间 折 中 的 结果 。 由 于 这 种 折 中 图 
(每 个 ODS 设 计 都 存在 )，ODS 与 其 说 是 科学 ， 不 如 说 类 未 We 的 。 国 
是 艺术 。 由 于 这 些 ， 开 发 ODS 所 费 的 时 间 也 较 长 ， 进 
行 设计 上 的 权衡 需要 很 多 时 间 和 努力 。 一 般 需 要 一 个 。 ”图 16.5 ODS 是 由 关系 型 设计 和 
有 经 验 的 设计 者 进行 明智 的 选择 . 多 维 设计 结合 而 成 


16.4 按 比例 画图 


ODS 与 数据 仓库 画 在 一 起 时 ，ODS 经 常 要 比 数据 仓 
库 小 。 但 实际 上 ， 如 果 ODS 与 数据 仓库 按 大 小 比例 画 ， 口 
效果 就 不 一 样 了 。 图 16-6 显 示 了 ODS 和 数据 仓库 之 间 比 。 ops 
例 的 不 同 。 
图 16-6 中 显示 ， 数 据 仓 库 比 ODS 大 得 多 。 以 下 是 数 
据 仓库 之 所 以 较 大 的 原因 : 数据 仓库 
。 数 据 仓库 包含 历史 数据 。ODS 中 只 包含 少量 的 历史 。 图 16-6 按 比例 画 出 的 ODS 和 数据 仓库 
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数据 。 
* 数据 仓库 为 所 有 的 用 户 服务 。 因 此 ， 数 据 仓库 中 含有 各 种 各 样 的 数据 。ODS 是 为 一 种 处 
理 过 程 服务 的 ， 因 此 ， 其 含 的 数据 种 类 相 比 数据 仓库 要 少 得 多 。 
“数据 仓库 中 的 数据 完全 是 颗粒 的 和 关系 型 的 。 由 于 只 为 一 种 用 户 服务 ，ODS 中 的 数据 更 
加 概括 ， 更 加 紧凑 。 
由 于 这 些 原 因 ，ODS 比 数据 仓库 小 得 多 。 


16.5 ODS 中 的 事务 集成 


数据 仓库 和 ODS 还 有 一 个 很 大 的 不 同 ， 在 谈 到 基本 的 DBMS 的 时 候 ， 它 们 有 不 同 的 要 求 。 
数据 仓库 DBMS 不 需要 对 事务 进行 集成 ， 因 为 它 不 需要 升级 ， 而 且 它 不 提供 高 性 能 的 处 理 过 
程 。 这 就 意味 着 运行 数据 仓库 DBMS 的 花费 比 运行 有 事务 集成 的 DBMS 低 得 多 。 

另 一 方面 ， 适合 ODS 的 DBMS 需 要 对 事务 进行 集成 。 这 意味 着 ， 如 果 一 个 操作 失败 ， 需 
要 从 数据 库 中 实时 退出 和 恢复 。ODS 需 要 对 事务 进行 集成 ， 因 为 它 要 支持 高 性 能 的 处 理 ， 还 
要 对 自身 进行 升级 。 即 使 不 升级 ， 集 成 事务 的 花费 也 是 很 大 的 。 当 有 升级 的 可 能 ， 或 ODS 中 
要 进行 处 理 时 ， 就 需要 集成 处 理 。 


16.6 对 ODS 处 理 日 进行 分 片 


ODS 的 处 理 日 被 分 为 不 同 的 时 间 片 ， 以 进行 不 同 的 处 理 。ODS 能 进行 高 效 处 理 的 秘密 就 
在 于 时 间 分 片 。 图 16-7 中 显示 典型 情况 下 如 何 对 一 天 进行 分 片 ， 以 进行 不 同 模式 的 处 理 。 

图 16-7 显 示 ， 在 一 天 的 最 初 几 个 小 时 ，ODS 基 本 上 只 限于 一 种 形式 的 处 理 一 一 通过 顺序 
地 、 批 量 方式 处 理 ， 例 如 装载 数据 、 编 辑 数据 、 监 管 数据 等 。 当 正常 的 工作 时 间 开 始 时 ， 
ODS 变 成 能 够 高 性 能 处 理 的 机 器 。 在 这 段 时 间 ， 工 作 包 括 许 多 快速 运行 的 活动 。 大 的 顺序 操 
作 在 一 天 中 的 高 峰 处 理 时 间 不 能 运行 。 下 午 的 晚 些 时 候 ，ODS 又 变 成 一 个 可 以 处 理 不 同 工 作 
的 机 器 了 。 

通过 时 间 分 片 ，ODS 可 以 支持 多 种 处 理 ， 可 以 保障 每 天 的 高 峰 时 间 能 够 高 效 运作 。 


国 


ODS 


12:00 pm 8:00 am 5:00 pm 9:00 pm 


批 处 理 在 线 事务 处 理 批 处 理 
图 16-7 ODS 的 一 个 处 理 日 


16.7 多 个 ODS 


ODS 取决 于 处 理 要 求 。 一 个 机 构 中 可 能 有 很 多 不 同 的 处 理 要 求 ， 包 括 财务 处 理 、 工 程 处 
理 、 营 销 处 理 要 求 等 。 由 于 处 理 要 求 不 同 ， 组 织 中 可 能 有 多 个 ODS。 对 组 织 的 每 一 个 不 同 的 
要 求 有 一 个 ODS。 

可 能 有 多 个 ODS ， 但 只 有 一 个 企业 数据 仓库 。 
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16.8 ODS 和 网 络 环境 


ODS 有 一 个 特殊 应 用 需要 提 一 下 。ODS 的 使 用 与 在 网 络 环境 与 数据 仓库 之 间 建 立 接口 相 
关联 。 接 口 如 图 16-8 所 示 。 





图 16-8 网 络 环境 如 何 与 基于 电子 商务 环境 的 网 络 交互 


图 16-8 显 示 ， 网 络 环境 与 数据 仓库 是 间接 交互 的 。 网 络 数据 ( 即 ， 点 击 流 数 据 ) 通过 粒 
度 管理 器 从 网 络 环境 而 来 。 粒 度 管理 器 的 处 理 结束 后 ， 数 据 就 传 到 数据 仓库 当中 。 当 网 络 环 
境 要 从 数据 仓库 得 到 数据 时 ， 它 就 从 数据 仓库 传人 ODS。 一 旦 数据 到 达 ODS， 通常 要 创建 一 
个 概要 记录 。 网 络 环境 通过 ODS 访 问 数据 。 网 络 环境 并 不 从 数据 仓库 中 直接 访问 数据 。 数 据 
仓库 就 从 网 络 环境 产生 的 大 量 数据 屏蔽 出 来 。 数据 仓 库 也 不 用 去 满足 网 络 环境 的 高 性 能 处 理 
要 求 。 粒 度 管理 器 使 数据 仓库 与 大 量 的 数据 分 离 ， 而 ODS 使 数据 仓库 不 用 去 处 理 网 络 环境 出 
现 的 高 性 能 的 要 求 。 粒 度 管理 器 和 ODS 就 好 像 是 数据 仓库 的 减 震 器 。 


16.9 ODS 的 一 个 例子 


作为 ODS 的 最 后 一 个 例子 ， 考 虑 图 16-9 中 的 情况 。 

图 16-9 显 示 ， 针 对 打 电 话 的 情况 建 一 个 数据 仓库 。 数 据 仓库 中 有 几 百 万 条 电话 记录 。 打 
电话 的 情况 根据 顾客 进行 分 类 ， 并 为 每 一 个 顾客 建 一 个 概要 记录 。 每 个 顾客 的 拨打 习惯 被 概 
括 到 一 个 概要 记录 中 ， 这 个 记录 记载 的 内 容 如 下 : 顾客 拨打 的 数目 是 多 少 , 电话 是 打 给 谁 的 ， 
拨打 了 多 少 个 长 途 电话 等 。 

ODS 为 组 织 中 的 电话 接线 员 开 放 。 当 接线 员 接 到 一 个 电话 ， 她 就 知道 打 电 话 的 人 的 情况 。 
她 就 可 以 根据 这 些 信息 推销 了 。 她 会 了 解 到 此 人 的 态度 是 否 明确 ;是 不 是 一 个 大 买 家 等 。 

从 ODS 中 出 来 的 信息 几 毫 秒 就 可 以 被 使 用 。 就 是 说 ， 当 接线 员 应 答 电 话 的 时 候 ， 只 要 接 
线 员 与 顾客 开始 对 话 ， 关 于 这 个 顾客 的 全 部 信息 就 会 显示 在 屏幕 上 。 
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图 16-9 ODS 的 一 个 例子 
16.10 小 结 


ODS 是 数据 仓库 的 一 个 配对 体系 结构 。 但 ODS 不 像 数据 仓库 一 样 ， 它 有 快速 的 响应 时 间 
和 升级 。ODS 中 所 含 的 历史 数据 甚 少 ， 但 数据 仓库 中 有 大 量 的 历史 数据 。 

ODS 典型 的 数据 库 设 计 就 是 概要 记录 。 概 要 记录 是 对 数据 仓库 中 的 许多 历史 记录 进行 综 
合 才 得 到 的 。 

有 多 种 不 同 的 ODS， 包 括 种 类 1、 种 类 2、 种 类 3 和 种 类 4。 种 类 之 间 的 不 同 主要 是 对 ODS 
的 更 新 速度 不 同 。 第 1 种 ODS 几 毫 秒 更 新 一 次 。 第 2 种 的 更 新 时 间 是 几 个 小 时 。 第 3 种 大 概 一 个 
夜晚 周期 地 更 新 。 第 4 种 的 更 新 周期 非常 长 。 

在 设计 上 ，ODS 是 关系 型 结构 和 多 维 结构 的 混合 体 。 

如 果 按 比例 画 出 ，ODS 比 数据 仓库 小 得 多 。 数 据 仓 库 并 不 要 求 DBMS 有 对 事务 进行 集成 
的 能 力 ， 但 ODS 需要 这 种 能 力 。 

ODS 一 天 中 的 处 理 时 间 可 以 分 成 不 同 的 种 类 。 一 些 用 来 进行 高 性 能 的 处 理 ， 而 另 一 些 用 
来 进行 较 长 的 顺序 处 理 。 

一 个 企业 中 可 以 有 多 个 ODS， 这 取决 于 处 理 的 需要 。 作 为 数据 仓库 和 网 络 环境 的 接口 ， 
ODS 有 着 特殊 的 作用 。 数 据 仓库 把 数据 传 到 ODS 中 ， 然 后 ODS 直接 与 网 络 环境 交互 。 
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企业 信息 依从 准则 已 经 变 为 法 律 ， 至 少 在 美国 是 这 样 的 。 对 于 要 在 美国 做 安全 交易 的 公 
司 ， 要 遵守 相关 的 法 律 。 一 些 有 名 的 依从 准则 包括 Sarbanes Oxley、Basel II 以 及 HIPAA。 这 些 
标准 形成 的 原因 各 不 相同 。 

可 能 最 有 名 的 一 套 标 准 就 是 Sarbanes Oxley 了 。 在 2000 年 左右 ， 一 些 公司 出 现 了 2 本 
这 些 公司 的 高 层 试 图 通过 欺诈 来 提高 公司 股价 。 如 此 一 来 ， 投 资 人 需要 花 更 多 的 钱 来 买 公 
授权 的 股票 。 这 些 公司 抬 高 股价 的 办 法 是 利用 会 计 的 “烟雾 和 镜子 ”( 即 财务 漏洞 )。 小玉 的 
公司 有 Enron、MCI/WorldCom 和 Global Crossings。 

这 些 假 账 和 骗 人 的 交易 蒙蔽 了 公众 ， 为 了 制裁 这 种 行为 ，Sarbanes Oxley 法 案 出 台 了 。 即 
使 不 考虑 其 他 的 因素 ，Sarbanes Oxley 本 身 就 可 以 促使 公司 通过 合理 和 诚实 的 方式 处 理 他 们 的 
财务 。 而 且 ，Sarbanes Oxley 使 公司 的 管理 人 员 要 对 公司 的 账目 负 法律 责 任 。Sarbanes Oxley 
法 案 实行 以 前 ， 想 让 公司 的 高 层 对 公司 的 报告 和 财务 交易 负 法 律 责任 难 上 加 难 。 在 它 实 行 以 
后 ， 如 果 公 司 的 管理 人 员 不 遵守 公司 报告 和 财务 标准 ， 他 就 可 能 被 判刑 人 狱 。 

在 这 以 前 ， 信 息 依 从 准则 并 没有 真正 摆 到 桌面 上 。 财 务 会 计 准 则 委员 会 (FASB ) 和 国际 
公认 会 计 原 则 (GAAP) 一 些 年 来 控制 着 公司 信息 。FEASB 以 及 GAAP 解 决 的 是 有 关公 司 财务 
方面 的 审计 以 及 会 计 问 题 。 它 们 是 会 计 人 员 处 理 公 司 财务 的 规则 和 程序 。 在 Sarbanes Oxley 实 
行 以 前 ， 有 不 良 财务 行为 和 报告 的 公司 所 受到 的 制裁 无 非 是 一 些 负面 的 评价 以 及 民事 制裁 。 
还 有 ， 如 果 从 会 计 公 司 传 出 关于 公司 负面 的 评价 ， 这 个 公司 的 股票 价格 就 会 有 波动 。Sarbanes 
Oxley 法 案 实行 以 后 ， 对 上 市 公司 来 讲 ， 如 果 有 不 当 的 管理 和 财务 错误 申报 这 些 情况 ， 就 可 以 
对 相关 人 员 进 行刑 事 制裁 。 

还 有 其 他 的 标准 。 在 财务 方面 还 有 Basel II。 在 医疗 方面 有 健康 保险 携带 和 责任 法 案 
(HIPAA)。 可 以 预见 ， 在 未 来 还 会 有 更 多 的 关于 企业 信息 和 信息 处 理 的 法 案 。 

虽然 其 作用 不 是 很 明显 ， 但 是 数据 仓库 确实 在 对 Sarbanes Oxley 和 其 他 依从 准则 的 执行 方 
面 起 了 很 大 的 作用 。 图 17-1 显 示 一 张大 图 ， 用 来 说 明 企业 为 了 遵守 Sarbanes Oxley 这 样 的 法 案 
需要 做 的 事情 ， 也 阐述 了 在 这 些 方面 数据 仓库 所 起 的 作用 。 

17.1 两 个 基本 行为 

企业 要 遵守 依从 标准 ， 有 两 个 行为 必须 要 做 : 

* 遵守 财务 要 求 和 财务 管理 

。 遵 守 条 款 中 有 关 企 业 交 流 的 部 分 

这 些 行为 相互 之 间 有 联系 ， 但 不 同 之 处 也 很 明显 。 

17.2 财务 依从 准则 

财务 依从 准则 所 管理 的 是 财务 交易 的 记录 、 过 程 以 及 报告 。 在 某 种 程度 上 ， 财 务 依从 准 
则 没有 新 的 内 容 ， 只 要 遵守 多 年 前 发 布 的 GAAP 和 FASB 标 准 就 行 了 。 Sarbanes Oxley 标 准 是 
为 上 市 且 股 票 大 量 交易 的 公司 制定 的 。 由 财务 依从 准则 管辖 的 财务 行为 有 如 下 的 内 容 : 
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图 17-1 依从 准则 和 数据 仓库 

。 记 录 交 易 的 日 期 

。 记 录 交 易 的 数额 

。 记 录 交 易 的 参与 者 

。 交 易 的 分 类 

有 一 系列 的 批准 和 正规 化 的 过 程 ， 大 多 数 的 公司 从 来 都 没有 遇 到 过 。 在 许多 方面 ， 这 些 
标准 要 求 公司 把 所 有 的 商务 操作 提高 到 银行 和 金融 依从 准则 的 水 平 。 银 行 和 金融 领域 一 直 对 
数据 集成 标准 有 很 高 的 依从 准则 。 依 从 准则 度 很 高 的 原因 是 每 个 顾客 账户 (包括 储 琵 账户 、 
核算 账户 、 贷 款 等 ) 都 需要 较 高 的 精度 。 如 果 有 一 个 交易 处 理 不 好 ， 银 行 、 金 融 机 构 或 者 客 
户 就 有 麻烦 了 。 因 此 ， 银 行 和 金融 机 构 都 有 严格 的 流程 和 控制 ， 用 来 保证 资金 能 够 很 好 地 
处 理 。 

有 了 Sarbanes Oxley, 所 有 的 组 织 机 构 都 要 求 像 银 行 那样 处 理 好 它们 的 数据 ， 无 论 这 些 机 
构 的 商务 性 质 决定 要 不 要 这 样 ， 即 使 它们 已 经 成 功 地 诚实 运营 了 一 百年 。 

除了 在 微观 上 确保 财务 交易 以 外 ， 在 宏观 上 也 要 对 它们 进行 检查 。 其 中 的 一 些 宏观 财务 
检查 方式 ， 就 是 看 是 否 所 有 的 财务 交易 都 包括 在 内 。 一 种 “造假 账 ” 的 方式 就 是 不 把 所 有 的 
财务 交易 包括 在 内 。 另 一 种 伎俩 就 是 把 所 有 的 交易 都 推 到 一 个 账户 上 ， 或 推 到 某 一 个 附属 环 
节 。 因 此 ， 应 该 从 微观 和 安 观 两 个 角度 监督 财务 交易 。 

财务 交易 有 两 个 方面 ， 过 去 和 现在 。 在 执行 Sarbanes Oxley 的 时 候 ， 大 多 数 都 是 针对 企业 
当前 的 交易 。 这 就 意味 着 一 个 交易 如 果 发 生 ， 就 面临 着 一 系列 的 审计 。 这 些 “ 小 审计 ”提前 
确保 这 次 财务 交易 与 标准 相符 。 因 此 ， 每 次 交易 都 要 面 对 相 应 的 财务 审计 和 过 程 。 

当 相 应 的 财务 审计 和 过 程 结束 后 ， 财 务 数据 就 可 以 进入 数据 仓库 了 。 
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大 多 数 公 司 都 从 目前 的 交易 审计 出 发 ， 开 始 执行 Sarbanes Oxley 标 准 。 

Sarbanes Oxley 的 第 二 个 方面 是 随 着 时 间 的 流逝 ， 要 回来 察看 财务 数据 。 这 个 方面 的 核心 
就 是 检查 旧 的 财务 数据 。 很 自然 ， 数 据 仓库 在 这 里 就 成 为 重点 ， 因 为 它 其 中 包含 着 : 

。 历 史 数据 

。 颗 粒 数据 

。 集 成 数据 

于 是 ， 数 据 仓 库 成 为 财务 审计 的 基础 一 一 对 Sarbanes Oxley、Basel I、HIPAA 以 及 其 他 标 
准 都 是 这 样 的 。 从 大 的 角度 来 看 ， 公 司 的 财务 有 两 个 方面 ， 即 “是 什么 ”和 “为 什么 。 


17.2.1 “是 什么 ” 


财务 事务 的 “是 什么 ” 指 记录 发 生 的 财务 交易 。 它 要 追踪 所 有 财务 交易 的 细节 。 追 踪 财 
务 事务 “是 什么 ”得 到 相应 的 典型 数据 如 图 17-2 所 示 。 

从 依从 准则 的 角度 来 看 公司 财务 交易 ， 我 们 可 以 从 儿 个 方面 人 手 : 

* 是 不 是 所 有 的 财务 交易 都 包括 在 内 了 ? 


. 记录 操作 的 数据 粒度 是 不 是 最 小 的 ? | | 
。 与 每 个 财务 交易 相关 的 所 有 信息 是 不 是 被 很 好 地 记录 ? 财务 实 易 : 
“信息 的 记录 是 否 精确 ? 7 从 全 而 水 (到 哪里 去 
.是 不 是 很 好 地 对 交易 进行 分 类 ? _ 过 人数 
如 果 要 依从 准则 发 生 过 的 交易 ， 那 么 以 上 这 些 方面 的 
财务 交易 记录 非常 重要 。 


要 从 细节 上 记录 历史 数据 ， 以 保存 财务 交易 信息 ， 就 图 17-2 财务 交易 
意味 着 要 存储 大 量 的 数据 。 但 数据 仓库 只 能 以 通常 的 原则 存储 大 量 的 数据 ， 因 此 ， 为 了 依从 
准则 而 存储 财务 数据 要 做 的 还 很 多 。 

普通 的 数据 仓库 与 为 了 依从 准则 而 建立 的 数据 仓库 -一个 很 大 的 不 同 之 处 就 在 于 访问 的 概 
率 不 同 。 标 准 数据 仓库 中 数据 的 访问 概率 一 般 较 高 。 如 果 其 访问 率 降低 ， 那 么 数据 就 会 存放 
在 近 线 或 其 他 亚 代 存储 介质 上。 因此， 一 般 数 据 仓库 的 数据 访问 率 相对 较 高 。 

但 是 对 于 为 依从 准则 而 建 的 数据 仓库 ， 其 访问 概率 就 非常 非常 低 ， 甚 至 永远 不 可 能 被 访 
间 到 。 实 际 上 ， 在 大 多 数 情况 下 ， 如 果 永 远 不 访问 这 些 数据 ， 企 业 会 非常 开心 。 

因此 ， 为 依从 准则 而 建 的 数据 仓库 与 标准 数据 仓库 的 一 个 主要 区 别 就 是 ， 前 者 基本 上 不 
会 访问 ， 而 后 者 的 访问 概率 相对 较 高 。 

两 者 另外 一 个 不 同 就 是 数据 的 易于 失 性 。 在 普通 数据 仓库 中 如 果 数 据 持 失 ， 会 产生 问题 ， 
但 还 不 是 灾难 。 换 名 话说， 虽然 在 数据 仓库 中 保存 数据 很 重要 ， 但 数据 丢失 了 ， 天 还 不 会 塌 
下 来 。 

但 在 依从 准则 数据 仓库 中 ， 丢 失 财 务 数据 的 结果 就 严重 多 了 ， 公 司 可 能 面临 被 指责 为 不 
正当 作为 ， 而 不 管 这 种 指责 是 否 成 立 。 因 此 ， 在 这 种 数据 仓库 中 进行 备份 比 普通 数据 仓库 中 
的 备份 更 加 重要 。 

两 者 的 另外 一 个 不 同 就 是 查询 的 过度 。 通 常 ， 除 非 分 析 人 员 在 做 数据 统计 处 理 ， 对 数据 
仓库 的 访问 的 响应 时 间 有 一 定 的 要 求 。 合 理 的 反应 时 间 是 相对 的 一 一 在 一 些 情况 下 是 10 秒 钟 , 
而 在 另 一 些 情况 下 可 能 是 30 分 钟 。 当 然 ， 对 于 繁重 的 数据 统计 分 析 ， 合 理 的 反应 时 间 其 至 可 
能 是 以 天 来 计算 . 
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但 对 于 依从 准则 数据 仓库 的 查询 而 言 ， 合 理 的 反应 时 间 可 能 用 儿 天 或 几 周 来 计算 。 因 此 ， 
两 种 环境 下 的 反应 时 间 期 待 值 不 同 。 

两 者 另外 一 个 很 重要 的 不 同 之 处 就 是 内 容 。 数 据 仓库 当中 包括 的 可 能 是 已 有 的 各 种 数据 ， 
但 是 为 依从 准则 而 建 的 数据 仓库 仅 限于 财务 数据 ， 至 少 在 大 多 数 情况 下 如 此 。 

依从 准则 数据 仓库 中 数据 的 存储 时 间 长 度 取决 于 几 个 因素 : 

* 法 定 的 存储 时 间 

* 不 考虑 法 定时 间 ， 公 司 能 够 存储 的 时 间 

。 通 过 某 种 媒介 ， 数 据 可 以 物理 存储 的 时 间 

在 存储 数据 时 ， 为 了 数据 依从 准则 ， 要 考虑 的 一 个 因素 就 是 对 相关 的 元 数据 以 及 对 数据 
本 身 的 存储 和 保存 。 如 果 公 司 为 了 数据 存储 依从 准则 而 将 数据 存储 了 很 长 的 一 段 时 间 ， 节 后 
却 发 现 连 自己 都 无 法 读 懂 数 据 ， 那 这 些 数据 对 公司 就 没有 任何 好 处 。 换 名 话说 ， 一 旦 元 数据 
竺 失 ， 存 储 的 数据 对 依从 准则 来 讲 就 没有 价值 了 。 


17.2.2 “为 什么 ” 


尽管 搞 清 财务 交易 非常 重要 ， 但 只 是 考虑 的 一 个 方面 。 与 财务 交易 同等 重要 的 另 一 个 方 
面 是 “为 什么 ”。 在 搞 清 交易 发 生 之 前 ， 财 务 交易 进行 活动 是 “为 什么 "。 在 每 个 财务 交易 中 ， 
都 有 一 些 “ 前 财务 ”行为 。 前 财务 行为 就 是 财务 交易 之 前 的 磋商 。 

在 一 些 情况 下 ， 前 财务 磋商 比较 简单 :你 看 见 一 包 糖 果 卖 50 美 分 ， 掏 钱 买 了。 这 里 没有 
什么 前 财务 磋商 可 言 。 但 是 ， 在 另 一 些 情况 下 ， 有 很 多 前 财务 磋商 。 例 如 ， 建 造 大 厦 。 谁 是 
土地 的 拥有 人 ?大厦 将 建 多 高 ?电梯 是 什么 类 型 的 ? 建 大 厦 所 借 的 贷款 将 以 何 种 方式 付 清 ? 
大 厦 的 外 观 将 会 如 何 ? 租金 将 会 有 多 高 ? 计划 


大 的 事业 中 总 要 有 磋商 ， 而 且 还 是 大 规模 的 磋商 。 人、 
图 17-3 显 示 前 财务 磋商 。 约定 一 


磋商 有 很 多 个 方面 。 它 包括 建议 ,要 约 , 要 约 回  # 款 > 撒 
复 ， 承诺 ， 交 付 ， 条 款 ， 保障， 担保 等 等 。 每 个 磋商 一 一 一 


财务 交易 





所 包括 的 东西 都 有 所 不 同 。 四 
对 于 依从 准则 来 讲 ， 前 财务 活动 与 财务 活动 一 样 加 
重要 ， 因 为 它 解 释 为 何 相应 的 财务 活动 会 发 生 。 从 财 图 17-3 前 财务 行为 


务 依从 准则 的 角度 来 看 ， 前 财务 活动 与 财务 活动 一 样 重要 ， 甚 至 更 加 重要 。 

但 是 ， 要 捕获 和 揭示 前 财务 活动 是 一 件 非常 麻烦 的 事情 ， 因 为 前 财务 活动 是 非 结构 化 的 ， 
可 以 病 述 成 很 多 东西 。 换 名 话说， 前 财务 活动 是 主观 的 。 

那么 前 财务 活动 在 哪里 发 生 呢 ” 它 发 生 的 环境 是 非 结构 化 的 电子 邮件 或 电话 通话 环境 . 
前 财务 活动 大 多 都 是 自由 形式 的 讨论 和 谈话 。 计划 

图 17-4 显 示 前 财务 活动 发 生 时 的 情况 。 ~ 人 、 

前 财务 谈判 是 在 非 结构 化 环境 中 发 生 的 。 典 型 的 情况 包括 et 
电子 邮件 或 对 话 环境 。 其 他 的 情况 还 包括 备忘录 ， 建 议 ,“ 稻 。 条 丈 一 一 一 5 电话 通话 


章 人 ”合同 以 及 书面 条 款 。 发 货 一 一 一 ”文件 
这 些 前 财务 磋商 对 于 依从 准则 来 讲 ， 与 实际 的 财务 交易 本 保障 
身 一 样 重要 。 它 们 所 阐述 的 是 动因 ， 是 依从 准则 的 中 心 。 图 17-4 找到 前 财务 活动 


但 是 前 财务 磋商 很 难 捕获 和 跟踪 ， 因 为 它们 不 正规 ， 而 且 发 生 在 不 同 的 情形 下 。 
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图 17-5 显 示 捕 获 和 分 析 这 些 不 正规 的 ， 非 结构 化 的 磋商 。 

图 17-5 中 显示 ，、 非 结构 化 消息 及 交流 信息 要 通过 过 滤器 。 过 滤器 中 包括 Sarbanes Oxley 和 
其 他 形式 的 依从 准则 的 重要 词 或 者 短语 。 通 过 过 滤器 后 ， 消 息 和 交流 信息 根据 它们 与 依从 维 
则 的 内 容 相关 性 ， 相 应 排序 。 与 依从 相关 很 强 的 消息 做 标识 ， 而 没有 关系 的 不 做 标识 。 





图 17-5 过 滤 消 息 和 交流 信息 
通过 这 种 办 法 ， 对 依从 准则 来 讲 相 关 的 ， 或 对 依从 准则 来 讲 很 重要 的 消息 或 交流 信息 就 
可 以 采集 出 来 。 而 原先 它们 可 能 记录 的 不 同 的 地 方 。 
一 旦 消息 和 交流 信息 经 过 处 理 后 ， 就 可 以 用 标准 的 分 析 工 具 进 行 分 析 ， 这 些 工 具 包 括 
Business Objects, Cognos ，MircroStrategy 以 及 Crystal Reports 。 图 17-6 显 示 信 息 通 过 过 让 器 后 ， 
相应 的 结果 是 如 何 获取 的 。 





图 17-6 分 析 依从 准则 的 数据 


得 到 结果 以 后 ， 就 可 以 供 多 个 不 同 的 人 访问 了 ， 这些 人 包括 管理 人 员 、 审 计 人 员 、 会 计 
人 员 以 及 其 他 有 相关 利益 的 人 。 

将 消息 和 交流 信息 通过 过 滤器 很 有 意思 的 一 个 方面 就 是 ， 其 结果 可 供 历 史 报告 使 用 ， 亦 
可 供 正 在 进行 的 更 新 处 理 过 程 使 用 。 

有 两 个 主要 的 方面 需要 依存 ， 对 过 去 活动 的 审计 和 对 现在 活动 的 审计 。 对 过 去 活动 的 审 
计 主 要 对 象 是 5 年 到 10 年 的 数据 ， 甚 至 更 早 。 对 于 历史 审计 基本 上 没有 什么 限制 。 

当然 也 有 对 正在 进行 的 更 新 活动 进行 审计 。 正 在 进行 的 审计 是 一 个 检查 ， 其 对 象 是 财务 
活动 完成 前 的 那些 前 财务 活动 。 换 句 话说， 尚未 完成 ， 但 是 正在 进行 的 那些 合同 和 建议 也 要 
审计 。 前 面谈 到 的 过 主机 制 对 这 两 种 审计 都 有 用 。 

根据 Sarbanes Oxley， 管 理 层 需要 同意 正在 进行 的 交易 。 


17.3 审计 公司 的 交流 信息 
虽然 对 于 Sarbanes Oxley 依 从 准则 来 讲 ， 财 务 审计 是 最 为 重要 的 ， 但 是 它 并 不 是 唯一 的 审 
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计 。 为 了 满足 Sarbanes Oxley 的 要 求 ， 有 必要 察看 在 财务 活动 发 生 以 前 进行 的 活动 。 换 言 之 ， 
通常 情况 下 ， 财 务 交易 是 长 时 间 谈 判 的 最 后 环节 ， 在 这 以 前 还 有 很 多 事情 要 做 : 

。 选 择 商 品 或 服务 

。 商定 价格 

。 发 货 日 期 已 经 确定 

。 已 经 商定 了 对 产品 或 服务 的 更 改 ， 以 满足 客户 的 特殊 要 求 

。 对 产品 或 服务 进行 分 类 

换 句 话说 ， 财 务 交易 只 是 交易 以 前 发 生 的 所 有 活动 的 一 个 最 终 的 结果 。Sarbanes Oxley 对 
于 财务 活动 本 身 以 及 以 前 所 发 生 的 其 他 活动 都 很 重视 。 

这 个 标准 所 关注 的 一 种 前 财务 活动 ， 就 是 有 条 件 销售 。 有 条 件 销售 是 一 种 销售 ， 可 能 进 
行 ， 也 可 能 不 进行 ， 但 是 公司 已 经 将 它 登 记 在 册 了 。 考 虑 以 下 的 情况 。 软 件 公司 ABC 有 一 个 
潜在 的 顾客 。 为 了 跟 这 个 顾客 签 购买 合同 ，ABC 让 这 个 顾客 安装 软件 并 且 使 用 90 天 ， 再 决定 
买 或 者 不 买 。 顾 客 照 做 了 ， 安 装 了 软件 。ABC 宣 布 生意 做 成 。 实 际 上 ， 在 90 天 内 客户 可 能 签 
合同 。 而 客户 也 可 能 把 软件 删 了 ,或 者 是 删 了 一 部 分 。 或 者 是 ， 客 户 可 能 还 买 公司 的 其 他 软 
件 ， 这 样 加 起 来 可 以 打 个 折扣 。 

同时 ，ABC 公 司 的 股价 开始 攀升 ， 因 为 看 起 来 这 家 公司 正在 燕 燕 日 上 。 不 用 操心 是 不 是 
一 些 产品 的 价格 还 需要 重新 商讨 ， 也 不 用 管 其 收入 是 不 是 实在 。 如 果 明 年 有 更 多 的 潜在 客户 
把 销售 记录 本 填 满 ， 下 个 季度 的 销售 额 可 就 不 只 是 填 满 上 个 月 的 那些 潜在 销售 额 了 。 

通过 这 种 伎俩 ， 公 司 的 收入 被 人 为 地 夸大 ， 股 票 价格 被 人 为 地 抬 高 。 

Sarbanes Oxley 还 处 理 其 他 几 种 情况 。 这 些 情 况 包括 承诺 发 货 、 对 管理 者 贷款 等 。 

监测 前 财务 活动 和 前 财务 讨论 一 个 很 重要 的 方面 ， 就 是 搞 清 有 多 少数 据 要 过 滤 。 在 理论 
上 才能 对 每 条 消息 ， 每 条 交流 信息 进行 过 滤 。 在 现代 的 公司 当中 ， 每 天 可 能 有 几 百 万 封 电子 
邮件。 要求 菜 个 人 一 天 读 完 那 么 多 东西 显然 是 不 实际 的 。 

问题 就 成 为 ， 在 哪里 找 所 谓 的 前 财务 交易 ? 在 哪里 找 协商 数据 、 对 客户 的 承诺 等 数据 呢 ? 
答案 是 这 些 活动 在 非 结 构 化 环境 中 捕获 。 非 结构 化 环境 包括 电子 邮件 、 信 件 、 协 定 、 建 议 、 
电话 对 话 等 。 无 论 是 哪 种 方式 ， 这 些 非 结构 化 的 活动 都 包含 与 Sarbanes Oxley 相 关 的 数据 。 

为 了 对 非 结 构 化 数据 进行 审计 ， 首 先 要 捕获 非 结构 化 数据 。 实 际 上 ， 非 结构 化 数据 是 在 
很 多 地 方 通过 很 多 种 方式 找到 的 。 在 电话 通话 中 ， 对 话 需要 转化 成 文字 的 形式 。 在 电子 邮件 
中 ， 有 关 的 信件 必须 与 无 关 的 信件 分 离 。 

无 论 如 何 被 找到 ， 它 们 都 通过 特定 的 形式 存储 在 特定 的 地 方 ， 可 以 对 它们 进行 编辑 。 现 
在 传 到 屏幕 上 的 是 对 Sarbanes Oxley (或 Basel I、HIPAA 竺 标准 ) 来 讲 比较 敏感 的 词 或 者 短语 。 
这 些 消 息 或 交流 信息 中 的 单词 一 个 个 与 依从 准则 词 或 者 短语 进行 比较 。 如 果 没 有 找到 所 要 的 
词 或 短语 ， 则 相安 无 事 。 处 理 下 一 个 消息 或 信息 。 

如 果 找 到 了 一 个 词 或 者 短语 ， 就 被 归 为 以 下 三 类 之 一 : 

。 普通 词 或 者 短语 

。 关 键 词 或 者 短语 

"极其 关键 的 词 或 者 短语 

取决 于 过 到 的 词 或 者 短语 不 同 的 重要 性 ， 相 应 的 结果 分 放 在 如 下 三 个 位 置 : 

。 简单 索 引 

。 上 下 文 索引 
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。 消 息 或 交流 信息 的 复制 

简单 索引 存储 一 个 参考 信息 ， 它 指向 词 或 者 短语 。 例 如 ， 考 虑 “账户 ”(account) 这 个 词 。 
简单 索引 仅仅 指向 那些 包含 这 个 词 的 文件 或 电子 邮件 。Sarbanes Oxley 不 要 求 其 他 的 行为 ， 但 
它 要 求 必须 有 一 个 参考 指针 ， 用 来 指向 相应 的 词 或 短语 出 现 过 的 地 方 。 

上 下 文 索 引 的 对 象 是 我 们 认为 包含 关键 信息 的 词 或 者 短语 。 例 如 ， 考 虑 短语 “有 条 件 销 
售 *。 在 上 下 文 索引 的 情况 下 ， 出 现在 它 以 前 和 以 后 的 文本 都 被 捕获 。 相 应 的 上 下 文 可 能 看 起 
来 像 这 样 “…… 据 此 ， 签 订 了 一 个 购买 server 5 800 多 任务 服务 器 的 有 条 件 合同 ……” 在 这 种 
情况 下 ， 整 个 文本 字符 串 都 被 捕获 和 索引 。 这 样 ， 审 计 人 员 可 以 检查 上 下 文 ， 判 断 文件 是 否 
值得 调查 。 

复制 实际 消息 或 交流 信息 是 因为 找到 相应 的 词 或 者 短语 相当 重要 。 例 如 ， 收 到 的 消息 是 : 
“我 们 计划 盗用 公司 的 资金 "。 这 种 情况 下 ， 整 个 句子 都 被 捕获 和 存储 。 如 果 公 司 有 人 觉察 到 
有 人 在 监测 交流 信息 ， 即 使 他 把 自己 的 电子 邮件 全 部 删除 ， 整 个 邮件 还 是 会 完整 地 捕 提 到 。 

通过 这 种 方式 ， 公 司 消 息 或 交流 的 信息 可 以 被 监测 ， 以 使 它 能 够 依从 准则 Sarbanes Oxley 
或 其 他 的 标准 。 

一 旦 得 到 结果 ， 就 可 以 放 入 数据 仓库 。 进 入 数据 仓库 后 ， 结 果 作 为 公司 的 前 财务 审计 记 
录 ， 被 长 久 地 存储 下 来 。 


17.4 小 结 


对 大 多 数组 织 机 构 ， 依 从 准则 是 强制 的 ， 无 论 他 们 喜欢 或 不 喜欢 。 不 同 的 依从 准则 包括 
Sarbanes Oxley、HIPAA 和 Basel II 等 。 

Sarbanes Oxley 包 含 两 方面 的 依从 准则 : 财务 交易 依从 准则 和 信息 交流 依从 准则 。 财 务 交 
易 依从 准则 与 每 条 公司 财务 交易 的 精确 性 有 关 。 信 息 交 流 依从 准则 指 的 是 为 达到 财务 交易 所 
进行 的 活动 和 磷 商 。 财 务 活动 的 审计 要 求 保存 详细 的 历史 数据 。 前 财务 活动 审计 要 求 审 计 消 
息 和 交流 信息 。 

审计 消息 和 交流 信息 一 个 有 效 的 方式 就 是 对 它们 进行 过 滤 ， 从 而 提取 有 意义 的 词 和 短语 。 
消息 和 交流 信息 通过 过 滤器 以 后 ， 结 果 存 和 数据库 当 中 用 作 审 计 。 

审计 消息 和 交流 信息 一 个 重要 的 方面 牵涉 到 数据 的 量 。 有 一 些 公司 中 ， 每 天 处 理 的 消息 
达到 几 百 万 。 | 

监测 交流 信息 的 上 时候， 每 次 交流 的 信息 都 要 扫描 一 个 表 ， 这 个 表 里 面 存储 着 与 Sarbanes 
Oxley 有 关 的 词 和 短语 。 然 后 ， 扫 描 后 与 目标 吻合 的 词 和 短语 分 为 三 类 : 

。 普 通 

。 重 要 

。“ 非 常 重要 ” 
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数据 仓库 的 初始 动机 就 是 为 了 应 对 最 终 用 户 的 需求 。 但 是 对 数据 仓库 环境 来 讲 ， 本 质 上 
没有 “最 终 用 户 ”。 实 际 上 ， 存 在 一 个 最 终 用 户 的 完整 的 社区 ， 并 且 社 区 的 成 员 也 多 种 多 样 。 

通过 察看 这 个 社区 的 成 员 类 型 ， 我 们 就 能 够 对 这 个 社区 定性 。 总体 来 讲 ， 一 共有 四 种 最 
终 用 户 : 

。 农 民 

。 探 险 者 

。 矿 工 

。 旅 行者 

每 种 最 终 用 户 都 有 自己 独特 的 特征 。 


18.1 农民 


农民 是 数据 仓库 环境 中 占 主导 地 位 的 使 用 者 。 农 民 的 行为 是 可 预测 的 ， 做 的 事情 很 有 规 
律 。 农 民 查询 的 类 型 只 与 所 要 查询 的 数据 类 型 有 关 。 同 一 个 类 型 的 查询 可 能 执行 很 多 遍 。 

农民 提交 的 查询 往往 较 短 。 因 为 他 们 知道 自己 要 的 东西 ， 可 以 直接 访问 数据 所 在 的 位 置 。 
农民 执行 的 查询 有 类 似 的 访问 模式 。 如 果 在 星期 一 农民 提交 了 大 量 的 查询 需求 ， 那 么 很 可 能 
下 周一 还 会 有 很 多 的 查询 。 

对 农民 来 讲 ， 他 们 对 所 要 找 的 信息 有 很 高 的 “ 击 中 率 ”"。 如 果农 民 打 棒球 ， 他 就 是 个 中 等 
水 平 的 击 球 手 ， 他 很 少 能 够 打出 本 人 垒 打 ， 也 很 少 三 击 不 中 。 


18.2 探险 者 


第 二 类 最 终 用 户 是 探险 者 。 探 险 者 不 知道 自己 要 的 东西 ， 工 作 的 方式 不 可 预测 。 可 能 连 
续 6 个 月 不 知 下 落 ， 也 可 能 在 下 个 星期 就 连续 提交 10 个 访问 需求 。 探 险 者 有 察看 大 量 数据 的 习 
惯 。 他 们 在 探查 过 程 开 始 之 前 ， 不 知道 自己 要 得 到 的 东西 ， 而 且 寻 找 的 数据 模式 可 能 不 存在 。 
如 果 他 们 打 棒 球 ， 可 能 打出 很 多 本 垒 打 ， 也 可 能 有 很 多 三 击 不 中 。 探 险 者 的 平均 成 功率 很 低 。 

探险 者 的 工作 方式 是 “启发 模式 ”。 在 启发 模式 下 ， 操 作者 直到 目前 这 步 的 结果 出 现 ， 还 
不 知道 下 一 步 要 分 析 什 么 。 探 险 者 的 工作 基础 是 项 目 ， 项 目 结束 则 探查 过 程 终止。 

很 多 情况 下 探险 者 找 不 到 自己 想 要 的 东西 。 但 有 时候 ， 这 些 家 伙 会 发 现 别人 忽略 的 宝物 。 


18.3 矿工 


人 矿工 是 那些 挖 拨 数 据 、 分 析 它 们 能 不 能 说 明 问 题 的 人 。 矿 工 接受 别人 的 断言 ， 通 过 工作 
说 明 断 言 是 省 正确 ， 或 者 说 其 真实 度 有 多 强 。 矿工 经 常 使 用 统计 工具 ， 且 以 项 目 为 工作 基础 。 
他 们 提出 的 查询 规模 非常 大 ， 工 作 方 式 是 启发 式 的 。 探 险 者 经 常 与 矿工 一 前 一 后 地 工作 。 探 
险 者 提出 断言 和 假设 ， 矿 工 搞 清 这 些 断 言 和 假设 的 真实 性 。 

矿工 有 特殊 的 技能 (通常 是 数学 技能 )， 这 些 技能 将 他 们 与 其 他 的 技师 区 分 开 。 
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18.4 旅行 者 


旅行 者 知道 去 哪里 寻找 要 的 东西 。 他 们 具有 的 知识 深度 不 够 ， 但 是 广度 却 绰绰有余 。 他 
们 对 正式 和 不 正式 的 系统 都 很 熟悉 ， 知 道 如 何 使 用 互联 网 。 他 们 熟悉 各 种 形式 的 元 数据 ， 清 
楚 到 哪里 找到 索引 ， 如 何 使 用 索引 。 他 们 不 但 熟悉 结构 化 的 数据 ， 而 且 还 熟悉 非 结构 化 数据 。 
他 们 熟悉 源 代码 ， 懂 得 如 何 阅读 和 解释 源 代码 。 


18.5 整个 社区 


这 么 多 的 用 户 组 成 了 最 终 用 户 社区 。 他 们 的 需求 ， 包 括 了 所 有 的 DSS 处 理 和 数据 仓库 的 
请 求 。 但 这 些 用 户 有 自己 各 自 的 需求 。 

从 数量 上 来 讲 ， 农 民 的 数量 可 能 是 最 多 的 。 但 有 意思 的 是 ， 不 同 的 用 户 可 能 会 调换 自己 
的 职业 。 用 户 这 一 分 钟 是 农民 ， 下 一 分 钟 就 可 能 成 为 探险 者 。 因 此 ， 取 决 于 手头 的 任务 不 同 ， 
同一 个 人 在 不 同 的 时 间 可 能 是 不 同类 型 的 用 户 。 

不 同 的 最 终 用 户 回 答 的 问题 不 同 。 下 面 的 这 些 问 题 是 最 终 用 户 经 常 要 面临 的 典型 问题 。 

“农民 一 一 每 周 有 多 少 个 有 问题 的 贷款 ， 这 些 贷 款 的 情况 变 得 好 些 了， 还 是 变 得 更 糟糕 了 ? 

。 探 险 者 一 一 也 许 应 该 对 问题 贷款 进行 不 同 的 分 类 。 问 题 贷款 可 以 有 多 少 种 分 类 方式 ? 

。 矿 工 一 一 现在 有 一 个 新 的 分 类 方法 ， 有 多 少 种 这 类 贷款 ， 其 中 有 多 少 个 已 被 曝光 ? 

。 旅 行者 一 一 在 哪里 可 以 找 见 问题 贷款 账号 为 12345 的 更 多 信息 ? 


18.6 不 同 的 数据 类 型 


可 能 大 家 一 般 认 识 不 到 ， 对 数据 仓库 来 讲 ， 有 很 多 种 不 同 的 最 终 用 户 ， 而 且 这 些 用 户 对 
数据 仓库 的 设计 和 使 用 有 很 大 的 影响 。 考 虑 以 下 这 个 例子 。 数 据 仓库 中 不 同 的 数据 ， 其 使 用 
概率 不 同 。 图 18-1 显 示 数 据 在 使 用 概率 上 的 分 类 。 

图 18-1 显 示 ， 有 些 数 据 使 用 频繁 ， 而 另 一 些 数据 却 很 少 使 用 。 
随 着 数据 数量 的 增加 ， 这 样 的 分 类 是 很 自然 的 。 

然而 ， 从 不 同 的 用 户 角度 来 讲 ， 农 民 访 问 的 数据 是 频繁 访问 的 
数据 ， 而 探险 者 访问 的 数据 遍布 整个 数据 仓库 一 一 包括 频繁 使 用 的 
数据 ， 也 包括 不 频繁 使 用 的 数据 。 图 18-1 农民 使 用 数据 仓库 

数据 使 用 的 这 种 分 散 分 布 很 重要 的 原因 是 ， 如 果 不 对 探险 者 服 。 的 情况 比较 好 预测 。 探 险 
务 ， 数 据 的 分 布 就 变 得 很 容易 。 如 果 仅仅 对 农民 服务 ， 就 没有 很 多 “者 使 用 的 情况 无 法 预测 
的 需要 去 访问 不 频繁 使 用 的 数据 了 。 在 这 种 情况 下 ， 就 不 需要 近 线 存储 和 存档 存储 了 。 如 果 
数据 仓库 确实 需要 对 探险 者 提供 服务 ， 就 需要 访问 不 频繁 使 用 的 数据 了 。 

而 且 ， 不 同类 型 的 用 户 访问 CIF 的 不 同 部 分 。 农 民 一 般 访 问 数据 集 市 ， 探 险 者 访问 数据 仓 
库 和 探查 型 数据 仓库 ， 数 据 挖 掘 者 (矿工 ) 访问 数据 挖掘 型 数据 仓库 和 探查 型 数据 仓库 ， 旅 
行者 访问 元 数据 。 

18.7 成 本 论证 和 ROI 分 析 


进行 用 户 分 析 其 中 的 一 个 原因 ， 就 是 它 与 数据 仓库 的 成 本 论证 分 析 是 相关 的 。 农民 的 价 
值 见解 几乎 经 常用 于 分 析 数 据 仓库 的 投资 回报 率 (ROI) 和 成 本 理由 。 以 下 是 儿 个 原因 : 
。 农 民工 作 的 意义 是 明显 和 熟悉 的 。 人 们 每 天 都 可 以 看 见 农 民 所 做 的 工作 。 . 
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* 农 民 成 功 的 概率 是 很 高 的 。 每 天 农民 所 发 现 的 信息 都 可 能 对 决策 有 所 帮助 。 

换个 角度 ， 从 探险 者 来 看 ， 他 们 访问 数据 的 成 功率 不 高 。 如 果 用 探险 者 的 贡献 来 说 明 数 
据 仓 库 的 意义 ， 就 非常 靠不住 。 实 际 上 ， 探 险 者 可 能 一 无 所 获 ， 这 样 的 情况 下 建 库 所 做 的 努 
力 就 应 该 更 谨慎 。 

当然 ,农民 可 能 只 是 找到 一 点 -- 点 的 金子 ， 探 险 者 也 可 能 找到 钻石 。 情 况 也 可 能 是 ， 寂 
民 能 找到 大 量 的 小 金 粒 ， 而 探险 者 可 能 空手 而 归 。 但 是 ， 如 果 探 险 者 找到 有 用 的 东西 ， 这 些 
东西 就 可 能 非常 有 价值 。 

大 多 数 的 管理 层 都 反感 风险 。 因 此 ， 如 果 要 销售 数据 仓库 服务 ， 最 好 是 多 说 农民 ， 少 谈 
探险 者 。 


18.8 小 结 


要 讨论 DSS 最 终 用 户 真 是 困难 重重 。 实 际 上 ， 最 终 用 户 由 于 需要 的 信息 不 同 ， 具 有 不 同 
的 特征 。 以 下 是 四 个 不 同 种 类 的 DSS 最 终 用 户 : 

。 农 民 

。 探险 者 

。 矿 三 

。 旅 行者 

最 终 用 户 的 不 同 之 处 可 以 在 不 同 的 地 方 表现 出 来 ， 例 如 对 频繁 访问 数据 和 非 频繁 访问 数 
据 的 分 类 ， 以 及 ROI (投资 回报 比 ) 分 析 和 成 本 原因 。 
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在 操作 型 环境 中 确保 质量 的 最 有 效 的 方法 之 一 是 设计 复查 。 通 过 设计 复查 ， 可 以 发 现 各 
种 错误 ， 并 在 编码 之 前 更 正 。 在 开发 周期 的 早期 阶段 花费 一 定 的 代价 去 寻找 设计 中 的 错误 ， 
县 有 很 重要 的 意义 。 

在 操作 型 环境 中 ， 设 计 复查 通常 是 在 应 用 的 物理 设计 完成 以 后 进行 的 。 操 作 型 设计 复查 
所 围绕 的 问题 类 型 有 以 下 这 些 : 

* 事务 处 理性 能 

“ 批 处 理 窗 口 是 否 足够 

“系统 可 用 性 

“容量 

“项目 准备 的 充分 性 

“ 用户 需求 的 满足 程度 

如 果 在 操作 型 环境 中 我 们 正确 地 进行 了 设计 复查 ， 就 可 以 节约 大 量 资源 ， 并 且 大 大 增加 
用 户 对 系统 的 满意 度 。 更 重要 的 是 ， 当 设计 复查 得 到 正确 地 实施 以 后 ， 在 系统 进入 生产 阶段 ， 
主要 代码 部 分 就 用 不 着 推倒 重 写 了 。 

与 在 操作 型 环境 中 一 样 ， 设 计 复查 在 数据 仓库 环境 中 也 是 适用 的 ， 但 有 几 个 附带 条 件 。 

一 个 附带 条 件 是 ， 在 数据 仓库 环境 中 ， 系 统 是 以 从 代 的 方式 建立 起 来 的 ， 企 这 种 开发 方 
式 下 ,需求 的 发 现 过 程 是 开发 过 程 的 一 个 部 分 。 典 型 的 操作 型 环境 是 在 严格 定义 的 SDLC( 系 
统 开发 生命 周期 ) 下 建立 的 ， 而 数据 仓库 环境 下 的 系统 并 不 是 按 SDLC 建 立 的 。 操 作 型 环境 和 
数据 仓库 环境 下 的 开发 过 程 的 其 他 区 别 如 下 : 

“操作 型 环境 中 的 开发 是 按 一 次 一 个 应 用 的 方式 进行 ,数据 仓库 环境 下 的 系统 是 按 一 次 一 

个 主题 域 的 方式 进行 的 。 

“ 在 操作 型 环境 中 ， 由 一 组 稳定 的 需求 形成 操作 型 环境 下 设计 和 开发 的 基础 。 而 数据 仓库 

环境 下 ， 在 DSS 开发 开始 时 ， 人 们 对 处 理 需 求 很 少 有 一 个 稳定 的 认识 。 

* 在 操作 型 环境 中 ,事务 响应 时 间 是 主要 的 而 且 是 极其 重要 的 问题 。 而 在 数据 仓库 环境 中 ， 

事务 响应 时 间 基 本 上 不 算 个 问题 。 

* 在 操作 型 环境 中 ,来自 不 同系 统 的 输入 通常 来 自 企业 的 外 部 数据 源 ， 最 常见 的 是 通过 与 

外 部 代理 的 交互 获取 数据 。 在 数据 仓库 环境 中 ， 数 据 通常 来 自 企 业内 部 的 各 个 系统 ， 系 

统 的 数据 是 由 很 多 不 同 的 现 有 数据 源 集成 而 来 的 。 

“在 操作 型 环境 中 ， 数 据 几乎 都 是 当前 值 (也 就 是 说 ， 数 据 在 使 用 的 那 一 刻 是 准确 的 )。 而 

在 数据 仓库 环境 中 ， 数 据 是 随时 间 变 化 的 (也 就 是 说 ， 数 据 与 某 个 时 刻 相关 )。 

这 样 ， 在 操作 型 环境 和 数据 仓库 环境 之 间 存 在 一 些 根本 的 区 别 ， 这 些 区 别 可 以 在 进行 设 
计 复 查 的 过 程 中 体现 出 来 。 


19.1 何 时 进行 设计 复查 
在 数据 仓库 环境 中 ， 一 个 主要 主题 域 设 计 好 了 ， 并 准备 加 入 到 数据 仓库 环境 中 时 ， 就 应 
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开始 做 设计 复查 。 但 并 不 是 每 建 一 个 新 的 数据 库 都 需要 做 设计 复查 。 相 反 ， 当 新 的 主题 域 不 
断 加 入 到 数据 库 中 时 ， 就 有 必要 作为 整体 进行 设计 复查 。 


19.2 谁 负责 设计 复查 


设计 复查 阶段 的 参加 者 包括 与 所 复查 的 DSS 主题 域 有 关 的 开发 人 员 、 操 作 人 员 或 使 用 人 
员 。 正 常情 况 下 ， 包 括 如 下 人 员 : 

“数据 管理 员 (DA) 

“数据 库 管理 员 (DBA) 

* 程序 员 

。DSS 分 析 员 

“ 除 DSS 分 析 人 员外 的 最 终 用 户 

* 业务 管理 部 门 

* 系统 支持 入 员 

“管理 人 员 

在 这 组 人 员 中 ， 最 重要 的 参与 者 是 最 终 用 户 和 DSS 分 析 员 。 

在 同一 时 间 同 一 地 点 ， 将 所 有 .上述 人 员 聚 在 一 起 有 一 个 显著 的 好 处 ， 就 是 无 缝 沟通 ， 消 
除 不 同 认识 。 在 日 常 环境 中 ， 最 终 用 户 将 问题 告诉 联络 者 ， 联 络 者 转达 给 设计 者 ， 设 计 者 又 
通知 程序 员 ， 在 这 个 过 程 中 很 有 可 能 造成 误 传 和 误解 。 而 当 所 有 相关 人 员 聚 在 一 块 时 ， 就 有 
了 直接 交流 的 机 会 。 这 对 于 正在 进行 复查 的 项 目 来 说 ， 是 非常 有 益 的 。 


19.3 有 哪些 议事 日 程 


对 数据 仓库 环境 进行 复查 的 主题 可 以 是 任何 可 能 导致 失败 的 设计 、 开 发 、 项 目 管理 或 者 
应 用 问题 。 简 言 之 ， 任 何 有 碍 成 功 的 障碍 在 设计 复查 过 程 中 都 会 涉及 。 通 常 ， 如 果 大 家 对 一 
个 主题 越 有 争议 ， 在 复查 期 间 越 应 该 重视 它 。 

复查 过 程 的 基本 问题 将 在 本 章 后 面 的 部 分 中 讨论 。 


19.4 结果 


数据 仓库 设计 复查 能 产生 三 种 结果 : 

* 对 问题 的 管理 的 评价 和 对 进一步 行动 的 建议 ， 

。 有 关系 统 在 设计 中 的 位 置 以 及 复查 时 间 的 文档 ， 

“一 个 行动 要 上 且 表 ， 镁 明 特定 目标 和 行动 步骤 ， 它 们 是 复查 过 程 的 结果 。 


19.5 复查 管理 


复查 过 程 由 两 个 人 领导 ， 一 个 督导 人 和 一 个 记录 员 ， 督 导 人 绝对 不 能 是 要 复查 的 项 目的 
管理 者 或 开发 者 。 在 有 些 情况 下 ， 若 督导 人 是 项 目 负责 人 ， 从 许多 角度 而 言 ， 将 达 不 到 复查 
的 目的 。 

要 进行 一 次 成 功 的 复查 ,督导 人 不 能 参与 项 目 ， 这 点 必须 得 到 强制 执行 ， 原 因 如 下 : 

*， 作 为 一 个 局 外 大， 督导 人 会 用 新 的 眼光 ， 从 外 部 角度 观察 系统 。 这 种 新 鲜 的 眼光 经 常 能 

揭示 出 那些 与 系统 的 设计 和 开发 很 密切 的 人 所 不 能 发 现 的 重要 见地 。 
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* 作 为 一 个 局 外 人 ， 督 导 人 能 建设 性 地 提出 批评 。 与 开发 工作 很 密切 的 人 员 给 出 的 批评 往 
往 具 有 个 人 观点 ， 并 可 能 使 设计 复查 局 限于 一 个 非常 低 的 水 平 。 


19.6 典型 的 数据 仓库 设计 复查 


1. 复查 过 程 中 遗漏 了 谁 ? 是 否 有 应 该 出 席 的 小 组 遗漏 了 ? 以 下 这 些小 组 成 员 出 席 了 吗 ? 

* 数据 管理 员 

* 数据 库 管 理 员 

“编程 人 员 

“DSS 分 析 员 

“ 最终 用 户 

。 操 作 人 员 

“ 系统 编程 人 员 

“审计 人 员 

* 管理 人 员 

各 小 组 的 正式 代表 是 谁 ? 

解答 : 抛 开 其 他 因素 不 说 ， 是 否 有 合适 的 人 员 恰 当地 参与 了 设计 复查 对 于 复查 的 成 功 是 
至 关 重 要 的 。 最 重要 的 参加 者 是 DSS 分 析 员 或 最 终 用 户 。 管 理 人 员 或 许 参 加 或 许 不 参加 ， 这 
可 以 由 他 们 决定 。 

2. 最 终 用 户 的 需求 都 已 完全 预见 到 了 吗 ? 如 果 是 ， 达 到 了 什么 程度 ? 设计 复查 中 最 终 用 
户 代表 是 否 同 意 已 做 好 的 有 关 需 求 的 表述 ? 

解答 : 从 理论 上 讲 ， 没 有 与 最 终 用 户 的 交互 ， 也 就 是 说 没有 对 最 终 用 户 的 需求 的 预测 ， 
也 能 建立 起 DSS 环 境 。 然而， 如 果 需 要 修改 数据 仓库 环境 中 数据 的 粒度 ,或 者 在 数据 仓 兰 的 
顶层 ， 需 要 建立 EIS/ 人 工 智能 处 理 功 能 ， 那 么 ， 对 需求 进行 一 些 预测 是 很 有 益 的 。 通 常 ， 即 
使 对 DSS 需求 进行 了 预测 ， 最 终 用 户 的 参与 程度 也 是 非常 低 的 ， 最 终结 果 也 是 非常 粗略 的 。 
而 且 ， 也 不 应 该 将 大 量 的 时 间 花 费 在 对 最 终 用 户 需 求 的 预测 上 。 

3. 在 数据 仓库 环境 中 已 经 建 好 了 数据 仓库 的 多 少 内 容 ? 

* 哪些 主题 ? 

“有 哪些 细节 数据 ? 哪些 汇总 数据 ? 

。 按 字 节 算 、 按 行 算 、 按 磁道 / 柱 面 算 有 多 少数 据 ? 

“有 多 少 处 理 量 ? 

。 独 立 于 被 复查 项 目 ， 有 了 哪些 增长 模式 ? 

解答 : 数据 仓库 环境 的 当前 状态 对 于 正 被 复查 的 开发 项 目 来 说 具有 很 大 的 影响 。 刚 开始 
的 开发 工作 应 在 有 限 的 范围 内 进行 ， 并 且 应 在 边 试 边 改 的 基础 上 开展 。 在 这 个 阶段 ， 不 应 涉 
及 关键 的 处 理 或 数据 。 另 外 ， 应 该 预计 到 会 有 -定量 的 快速 反馈 和 反复 开发 工作 。 

此 后 的 数据 仓库 开发 工作 出 错 的 机 会 会 少 一 些 。 

4. 从 数据 模型 中 找 出 了 多 少 主要 主题 ? 有 多 少 是 正在 实现 的 ”有 多 少 已 全 面 实现 ? 有 多 
少 由 正在 被 复查 的 项 目 来 实现 ?有 多 少 会 在 不 远 的 将 来 实现 ? 

解答 : 通常 ， 数 据 仓库 环境 一 次 实现 一 个 主题 。 最 初 的 儿 个 主题 几乎 当 作 实验 考虑 。 前 
面 的 主题 开发 工作 中 的 经 验 ， 能 在 后 面 主题 的 实现 中 应 用 。 

5. 数据 仓库 环境 之 外 是 否 存在 重要 的 DSS 处 理 〈 也 就 是 数据 仓库 ) ? 如 果 是 ， 有 没有 可 
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能 产生 重复 或 冲突 ”对 数据 仓库 环境 外 的 DSS 数据 和 处 理 的 迁移 方案 是 什么 ?对 于 将 不 可 各 
免 的 迁移 ， 最 终 用户 能 理解 吗 ? 在 什么 时 间 范 围 内 做 迁移 工作 ? 

解答 ;在 正常 情况 下 ， 在 数据 仓库 环境 中 ， 只 有 部 分 数据 仓库 ， 而 其 他 部 分 的 数据 处 在 
数据 仓库 环境 之 外 ， 这 将 是 一 个 重大 的 错误 。 只 有 在 一 些 最 特别 的 例外 情况 下 ， 才 允许 存在 
一 个 “分 割 ” 方 案 。( 分 布 式 DSS 环 境 就 是 这 样 的 - -种 情况 。) 

如 果 数据 仓库 的 有 些 部 分 确实 处 在 数据 仓库 环境 之 外 ， 就 应 该 有 一 种 方案 能 将 DSS 体系 
中 的 那 部 分 数据 搬 回 到 数据 仓库 环境 中 。 

6. 已 经 确定 的 主要 主题 是 否 都 已 经 划分 到 较 低 的 细节 级 ? 

. 是否 标明 了 各 个 关键 字 ? 

,是否 已 经 确定 了 属性 ? 

“关键 字 和 属性 是 否 已 组 合 起 来 ? 

. 不同 数 据 分 组 之 间 的 关系 是 否 已 经 确定 ? 

. 是否 已 经 得 到 每 -组 随时 间 的 变化 ? 

解答 ; 对 于 数据 仓库 环境 来 说 ， 需 要 有 …- 个 数据 模型 作为 数据 仓库 环境 的 智能 中 心 。 在 
正常 情况 下 ， 这 种 数据 模型 有 三 个 层次 ， 可 以 标识 实体 和 关系 的 高 层 模 型 ， 可 以 标识 关键 字 、 
属性 和 关系 的 中 层 模型 ; 以 及 可 以 进行 数据 库 设 计 的 低层 模型 。 然 而 ， 在 开始 建立 DSS 环境 
之 前 ， 并 不 需要 将 所 有 的 数据 都 模型 化 到 最 低 细 节 层 ， 但 至 少 高 层 模 型 应 该 建 好 。 

7. 是 否 需 要 对 间 题 6 中 所 讨论 的 设计 进行 周期 性 的 复查 ? ( 多 长 时 间 一 次 ? 非 正式 地 还 是 
正式 地 ?) 复查 以 后 ， 做 出 了 哪些 修改 ”最 终 用 户 的 反馈 是 如 何 传递 给 开发 者 的 ? 

解答 ， 有 时 需要 修改 数据 模型 以 反映 企业 的 业务 变化 。 通 常情 况 下 ， 这 些 变化 是 自然 增 
加 的 ， 革 命 性 的 变化 是 不 很 常见 的 。 应 该 对 这 种 变化 可 能 对 现 有 的 数据 仓库 数据 和 计划 中 的 
数据 仓库 数据 造成 的 影响 做 出 一 个 评估 。 

8. 是 否 已 找 出 操作 型 环境 的 记录 系统 ? 

,每 “个 属性 的 数据 源 找 出 没有 ? 

. 是 否 已 经 找到 某 -个 或 另外 .个 属性 会 成 为 数据 源 的 条 件 ? 

。 如果 某 个 属性 没有 数据 源 ， 是 否 确定 了 它 的 默认 值 ? 

“是否 已 经 确定 了 数据 仓库 环境 中 的 那些 数据 属性 的 属性 值 的 公用 度量 标准 ? 

. 是否 已 经 确定 了 数据 仓库 环境 中 的 那些 数据 属性 的 共同 编码 结构 ? 

.是 否 已 经 确定 了 数据 仓库 环境 中 的 公共 关键 字 结 构 ” 记录 系统 在 哪些 地 方 不 符合 DSS 关 
键 字 结构 的 条 件 ?找到 转换 途径 没有 ? 

,如果 数据 来 自 多 个 数据 源 ， 是 否决 定 了 确定 适当 数值 的 规则 ? 

,是否 已 经 确定 了 存储 记录 系统 的 技术 ? 

. 当 进入 数据 仓库 时 ， 是 否 要 对 属性 进行 汇总 ? 

。 当 进入 数据 仓 庄 时 ， 是 否 要 对 多 个 属性 进行 聚集 ? 

.数据 通过 数据 仓库 是 否 会 重新 排序 ? 

解答 : 数据 模型 建立 好 以 后 ， 记 录 系 统 就 定好 了 。 记 录 系 统 通常 存在 于 操作 型 环境 中 ， 
记录 系统 代表 了 支持 数据 模型 的 现存 数据 中 最 好 的 数据 源 。 集 成 问题 在 定义 记录 系统 时 是 一 
个 非常 重要 的 因素 。 

9. 从 操作 型 记录 系统 中 抽取 数据 到 数据 仓 亩 环境 的 过 程 的 频率 确定 没有 ? 当前 抽取 过 程 
如 何 从 上 次 的 抽取 过 程 中 识别 出 操作 型 数据 的 变化 ? 
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* 通过 查看 时 间 蕉 数据 ? 

。 通 过 改变 操作 型 应 用 代码 ? 

。 通 过 查看 日 志文 件 ? 或 是 审计 文件 ? 

。 通 过 查看 差异 文件 ? 

。 通 过 比较 “前 ”映像 和 “后 ”映像 ? 

解答 : 抽取 过 程 的 频率 之 所 以 成 为 问题 ， 是 由 于 刷新 中 所 需要 的 资源 、 刷 新 过 程 的 复杂 
性 以 及 数据 及 时 刷新 的 需要 等 原因 造成 的 。 数 据 仓库 数据 的 可 用 性 常常 与 数据 仓库 的 刷新 频 
率 有 关 。 

从 技术 角度 而 言 ， 一 个 最 复杂 的 问题 是 在 抽取 过 程 中 判定 应 该 扫描 哪些 数据 。 在 有 些 情 
况 下 ， 需 要 从 一 个 环境 中 传 到 下 一 个 环境 中 的 操作 型 数据 是 相当 明确 的 。 在 另外 一 些 情况 下 ， 
根本 就 无 法 知道 应 该 检查 哪些 数据 ， 并 将 其 作为 载 和 数据 仓库 环境 的 候选 数据 。 

10. DSS 环 境 中 通常 包含 多 少数 据 量 ? 如 果 数 据 量 很 大 ， 那 么 

。 是 否 应 指定 多 重 粒度 级 ? 

。 是 否 应 该 对 数据 进行 压缩 ? 

* 是否 应 进行 定期 数据 清除 ? 

。 是 否 需 要 将 数据 移 到 近 线 存储 器 ? 以 什么 频率 转移 ? 

解答 : 除了 抽取 过 程 所 处 理 的 大 量 数 据 外 ， 设 计 者 需要 考虑 数据 仓库 环境 中 实际 的 数据 
量 。 对 数据 仓库 环境 中 数据 量 的 分 析 直 接 产 生 数 据 仓库 环境 中 的 数据 粒度 问题 ， 并 可 能 导致 
多 重 粒 度 级 的 出 现 。 

11. 为 了 创建 数据 仓库 环境 而 执行 抽取 过 程 时 ， 哪 些 数据 将 让 出 操作 型 环境 ? 

解答 : 所 有 的 操作 型 数据 都 传送 到 DSS 环境 中 是 很 少见 的 。 几 乎 每 一 操作 型 环境 都 包含 
只 与 操作 型 环境 相关 的 数据 。 这 些 数据 不 应 该 进入 数据 仓库 环境 中 。 

12. 采用 什么 软件 给 数据 仓库 环境 提供 数据 ? 

。 已 经 对 该 软件 进行 彻底 检查 吗 ? 

。 存 在 或 可 能 在 作 什 么 手 须 ” 

* 接口 是 单 向 的 还 是 双向 的 ” 

。 需 要 什么 技术 支持 ” 

。 有 多 少数 据 量 需 要 经 过 该 软件 的 处 理 ? 

*。 需 要 对 软件 做 什么 样 的 监控 ? 

* 需要 对 软件 做 什么 周期 性 地 修改 ? 

*。 这 种 修改 会 伴 有 什么 服务 中 断 ? 

* 安装 这 种 软件 需要 多 少时 间 ? 

。 谁 负责 这 种 软件 ? 

。 这 种 软件 何 时 能 充分 投入 使 用 ? 

解答 : 数据 仓库 环境 能 够 处 理 大 量 不 同类 型 的 软件 接 日 。 然 而 ， 不 应 低估 中 断 时 间 和 
“基础 架构 ”所 需 的 时 间 的 量 。DSS 体 系 结构 设计 者 不 能 想当然 地 认为 将 数据 仓库 环境 与 其 他 
环境 连接 起 来 肯定 是 直截了当 而 容易 的 事 。 

13. 为 数据 仓库 环境 外 的 DSS 部 门 和 个 人 处 理 提 供 数 据 需 要 什么 软件 接口 ? 

* 是否 已 经 彻底 地 测试 了 接口 ? 

。 可 能 存在 什么 瓶颈 ? 
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。 接 口 是 单 向 的 还 是 双向 的 ? 
。 需 要 什么 技术 支持 ? 
* 接口 的 预期 数据 流量 多 大 ? 
。 接 口 需要 什么 样 的 监控 ? 
.将 对 接口 做 哪些 修改 ? 
。 对 接口 作 和 修改 后 可 能 会 产生 什么 中 断 ? 
。 安装 接口 需要 多 长 时 间 ? 
。 谁 负责 这 个 接口 ? 
* 接 日 什 么 时 候 才 能 投入 全 面 的 应 用 ? 
14. 在 数据 仓库 环境 中 将 使 用 什么 样 的 物理 组 织 数 据 机 制 数据 能 直接 存 取 吗 ” 能 进行 顺 
序 存 取 吗 ? 能 简单 而 廉价 地 创建 索引 吗 ? 
解答 : 设计 者 应 该 复查 数据 仓库 环境 的 物理 配置 以 确保 有 足够 的 可 用 空间 ， 并 应 保证 数 
据 到 了 数据 仓库 环境 中 以 后 ， 就 能 有 效 快 速 地 操纵 数据 。 
15. 数据 仓库 环境 建 好 以 后 ， 往 其 中 增加 更 多 的 存储 设备 的 难 易 程 度 如 何 ?” 在 数据 仓库 环 
境 中 重新 组 织 数 据 难 不 难 ? 
解答 : 没有 一 个 数据 仓库 是 静态 的 数据 仓库 ， 没 有 数据 仓库 能 在 设计 的 初始 阶段 就 能 完 
完全 全 地 得 到 说 明 。 在 数据 仓库 环境 的 整个 生命 期 间 内 ， 作 一 些 设计 上 的 修改 是 完全 正常 的 。 
在 建立 一 个 数据 仓库 环境 时 ， 如 果 在 中 间 过 程 中 不 能 作 任 何 修改 ， 或 很 难 进行 修改 ， 那 么 ， 
这 个 数据 仓库 的 设计 必定 是 一 个 失败 的 设计 。 
16. 数据 仓库 环境 中 的 数据 需要 经 常 进行 重 构 (就 是 说 增加 列 、 删 除 列 或 者 扩大 列 宽 ， 或 
修改 关键 字 等 ) 的 可 能 性 有 多 大 ? 这 些 结构 修改 工作 对 数据 仓库 正在 进行 的 处 理 有 什么 影响 ? 
解答 : 考虑 到 数据 仓库 环境 中 的 数据 量 较 大 ， 重 构 并 不 是 件 容易 的 事 。 另 外 ， 对 十 存档 
数据 ， 过 了 一 定时 间 以 后 ， 对 数据 的 重 构 在 逻辑 上 几乎 是 不 可 能 的 。 
17. 对 数据 仓库 环境 的 期 望 性 能 水 平 如 何 ” 是 否 正 式 或 非 正 式 地 拟定 了 DSS 服务 水 平 的 
协议 ? | 
解答 : 除非 正式 拟定 了 一 个 DSS 服务 水 平 协议 ， 否 则 不 可 能 度量 出 性 能 指标 是 否 达 到 要 
求 。 这 个 DSS 服务 水 平 协议 应 该 洱 盖 DSS 性 能 水 平 及 停机 时 间 。 典 型 的 DSS 服务 水 平 协议 应 立 
明 以 下 内 容 : 
。 高 峰 时 刻 的 平均 性 能 ， 按 数据 单元 算 。 
。 非 高 峰 时 刻 的 平均 性 能 ， 按 数据 单元 算 。 
。 高 峰 时 刻 的 最 坏 性 能 ， 按 数据 单元 算 。 
。 非 高 峰 时 刻 的 最 坏 性 能 ， 按 数据 单元 算 。 
。 系 统 可 用 性 标准 。 
DSS 环境 的 一 个 难题 是 性 能 度量 ， 不 像 操 作 型 环境 ， 可 以 用 绝对 标准 度量 性 能 ，DSS 处 理 
性 能 度量 与 下 列 内 容 有 关 : 
。 单 个 请 求 要 求 有 多 少 处 理 量 。 
*。 当 前 正在 进行 的 处 理 有 多 少 。 
* 在 执行 时 ， 系 统 中 有 多 少 用 户 。 
18. 可 用 性 的 期 望 水 平 有 多 高 ?是 否 已 为 数据 仓库 环境 正式 或 非 正 式 地 拟定 了 可 用 性 协议 ? 
解答 : ( 见 问题 17 的 解答 ) 
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19. 对 数据 仓库 环境 中 的 数据 如 何 进行 索引 ? 如何 存 取 数 据 ? 

。 数 据 表 是 否 有 超过 四 个 索引 ? 

。 所 有 数据 表 是 否 散 列表 ? 

。 数 据 表 是 否 只 有 主键 索引 ? 

。 维护 索引 需要 些 什么 开销 ? 

。 最 初 载 入 索引 需要 哪些 额外 开销 ? 

。 索 引 的 使 用 频率 如 何 ? 

。 为 了 服务 于 更 广泛 的 应 用 ， 索 引 能 否 改变 ? 

解答 : 数据 仓库 环境 中 的 数据 要 求 高 效 而 灵活 地 存 取 。 不 幸 的 是 ， 数 据 仓库 处 理 所 具 有 
的 启发 式 特 性 使 得 对 索引 的 需求 具有 不 可 预测 性 。 这 样 ， 不 能 想当然 地 存 取 数据 仓库 环境 中 
数据 。 通 常 ， 采 用 多 层 方法 管理 对 数据 仓库 的 数据 存 取 是 最 理想 的 : 

。 散 列 关键 字 或 主 关键 字 应 该 满足 多 数 存 取 。 

。 二 级 索引 应 满足 其 他 大 多 数 存 取 模 式 。 

。 临时 索引 应 该 满足 不 常见 的 存 取 。 

。 对 数据 仓库 数据 的 子 集 的 抽取 和 顺序 索引 应 该 满足 不 频繁 或 者 一 生 一 次 的 数据 存 取 操 作 。 

在 任何 情况 下 ， 数 据 仓 库 环 境 中 的 数据 都 不 应 该 按 太 大 的 分 区 存放 ， 以 免 无 法 自由 地 进 
行 索引 。 

20. 预期 数据 仓库 环境 中 的 处 理 量 如 何 ” 高 峰 期 如 何 ? 日 平均 量 的 概要 情况 如 何 ? 峰值 处 
理 率 又 如 何 ? 

解答 : 不 但 需要 预计 数据 仓库 环境 中 的 数据 量 ， 而 且 应 该 预计 到 数据 处 理 量 。 

21. 数据 仓库 环境 中 的 数据 应 有 怎么 样 的 粒度 级 ? 

， 高 粒度 级 ? 

。 低 粒度 级 ? 

。 多 重 粒度 级 ? 

。 要 不 要 进行 轮转 汇总 ? 

。 是 否 有 一 个 真实 档案 数据 层 ? 

。 是 否 有 一 个 活 样本 数据 层 ? 

解答 : 显然， 在 数据 仓库 环境 中 ， 最 重要 的 设计 问题 是 数据 的 粒度 和 采用 多 重 粒 度 级 的 
可 能 性 。 简 言 之 ， 如 果 数 据 仓库 环境 的 粒度 级 已 经 正确 地 设计 好 了 ， 那 么 所 有 其 他 问题 就 变 
得 简单 明了 了 。 如 果 数 据 仓库 环境 的 数据 粒度 级 没有 正确 地 设计 好 ， 那 么 所 有 其 他 设计 问题 
将 会 变 得 复杂 而 繁重 。 

22. 对 数据 仓库 环境 中 的 数据 而 言 ， 有 什么 数据 清除 标准 ? 数据 是 真 的 被 清除 走 ， 还 是 压 
缩 好 放 到 其 他 地 方 ? 有 什么 法 定 需 求 ? 有 什么 审计 要 求 ? 

解答 : 即使 DSS 环境 中 的 数据 是 存档 的 ， 必 然 地 具有 很 低 的 存 取 可 能 性 ， 这 些 数据 还 是 
具有 其 种 存 取 可 能 性 (否则 它 就 不 应 存储 )。 当 存 取 的 可 能 性 减低 到 0( 或 接近 0) 时 ， 数 据 就 应 
该 清除 了 。 如 果 数 据 量 是 数据 仓库 环境 中 一 个 极 严重 的 问题 ， 将 不 再 有 用 的 数据 清除 出 去 成 
为 数据 仓库 环境 的 比较 重要 的 方面 之 一 。 

23.; 需要 什么 样 的 总 的 数据 处 理 能 力 ? 

。 为 了 最 初 实施 ? 

。 为 了 成 熟 时 期 的 数据 仓库 环境 ? 
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解答 : 如 果 无 法 对 处 理 能 力 方面 的 需求 值 准确 地 规划 到 最 末 位 ， 那 么 ， 对 系统 所 需要 的 
处 理 能 力 起 码 做 一 下 估计 也 是 有 益 的， 以 免 造 成 实际 需要 和 可 用 能 力 之 间 的 不 匹配 。 

24. 在 数据 仓库 环境 中 ， 将 会 识别 出 各 个 主题 域 间 的 哪些 关系 ? 这 些 关 系 的 实现 

。 能 不 能 使 外 部 关键 字 得 到 不 断 的 刷新 ? 

* 能 不 能 利用 人 工 关系 ? 

建立 和 维护 数据 仓库 环境 中 的 关系 需要 哪些 开销 ? 

解答 : 数据 仓库 设计 者 要 做 的 最 重要 的 设计 决策 之 一 ， 就 是 该 如 何 实现 数据 仓库 环境 中 
的 数据 之 间 的 关系 。 在 数据 仓库 中 ， 数 据 关系 的 实现 方式 几乎 不 可 能 套用 操作 型 环境 中 的 数 
据 关系 的 实现 方式 。 

25. 数据 仓库 环境 内 部 的 各 个 数据 结构 是 否 利用 了 以 下 各 项 技术 : 

。 数 据 阵列 ? 

。 选 择 性 的 数据 元 余 ? 

。 数据 表 的 合并 ? 

。 导 出 数据 的 共用 单元 的 创建 ? 

解答 : 在 数据 仓库 环境 中 ， 尽 管 操作 型 性 能 并 不 算是 什么 问题 ， 但 性 能 毕竟 是 一 个 问题 。 
如 果 前 面 所 列 的 这 些 设计 技术 能 够 减少 1O 总 量 ， 设 计 者 就 应 考虑 采用 这 些 技术 。 这 些 技术 是 
典型 的 物理 反 向 规范 化 技术 。 因 为 在 数据 仓库 环境 中 的 数据 并 不 需要 修改 ， 所 以 ， 对 于 哪些 
事 能 做 ， 哪 些 事 不 能 做 ， 并 没有 什么 限制 。 

决定 该 采用 哪些 技术 时 应 考虑 的 因素 包括 如 下 几 条 : 

。 数 据 值 个 数 的 可 预测 性 ， 

。 数据 访问 模式 的 可 预测 性 。 

。 收集 数 据 人 工 关 系 的 必要 性 。 

26. 数据 仓库 中 的 数据 库 恢复 需要 多 长 时 间 ? 计算 机 运行 部 门 是 否 做 好 了 进行 一 次 完整 的 
数据 仓库 数据 库 恢 复 的 工作 准备 ”是 部 分 性 的 恢复 ? 运行 部 门 是 否 会 周期 性 地 执行 恢复 工作 ， 
为 便 为 以 后 可 能 需要 的 恢复 工作 作 好 充分 准备 ?准备 的 程度 是 在 下 面 的 哪 一 级 体现 的 呢 ? 

。 系 统 支 持 ? 

。 应 用 编程 ? 

* 数据 库 管理 员 ? 

* 数据 管理 员 ? 

对 于 每 类 可 能 出 现 的 问题 ， 问 题 的 责任 是 否 已 经 明确 ? 

解答 .就 像 在 操作 型 系统 中 一 样 ， 设 计 者 必须 为 在 局 复 期 间 出 现 的 中 断 作 好 准备 工作 。 
恢复 的 频率 、 对 系统 进行 备份 所 需 的 时 间 以 及 在 中 断 期 间 可 能 会 产生 的 连锁 反应 ， 都 需要 认 
真 加 以 考虑 。 

是 否 已 经 准备 、 测 试 和 编写 好 了 用 于 恢复 的 指导 说 明 书 ? 这 些 指导 说 明 书 有 没有 得 到 及 
时 的 更 新 ? 

27. 为 了 进行 数据 重组 织 和 调整 数据 结构 ， 应 进行 什么 级 别 的 准备 ? 

。 操 作 人 员 ? 

。 系 统 支持 人 员 ? 

。 应 用 编程 人 员 ? 

。 数据库 管理 员 ? 
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。 数 据 管 理 员 ? 
是 否 编写 了 说 明 书 ， 建 立 了 过 程 ? 是 否 经 过 了 测试 9 是否 是 最 新 的 ?能 一 直 得 到 及 时 更 
新 吗 ? 


解答 : ( 见 问题 26 的 解答 ) 

28. 为 了 装载 数据 库 表 ， 应 进行 什么 级 别 的 准备 ? 

* 操 作 人 员 ? 

* 系统 支持 人 员 ? 

* 应 用 编程 人 员 ? 

。 数据库 管理 员 ? 

， 数据 管理 员 ? 

是 否 编写 了 说 明 书 ， 并 建立 了 过 程 ? 是 否 经 过 了 测试 ? 是 否 是 最 新 的 ? 能 一 直 得 到 及 时 
更 新 吗 ? 

解答 :装载 所 需 的 时 间 和 资源 可 能 是 相当 可 观 的 ， 应 该 谨慎 地 做 估计 ， 这 个 估计 需要 在 
开发 生命 周期 的 早期 进行 。 

29. 为 了 装载 数据 库 索 引 ， 应 进行 什么 级 别 的 准备 ? 

“操作 人 员 ? 

* 系统 支持 人 员 ? 

* 应 用 编程 人 员 ? 

。 数据 库 管理 员 ? 

。 数据 管理 员 ? 

解答 : ( 见 问题 28 的 解答 ) 

30. 如 果 对 数据 仓库 环境 中 的 某 项 数据 的 精确 性 有 争议 ， 该 如 何 解 决 ? 数据 仓库 环境 中 每 
个 单元 的 数据 的 所 有 权 (或 至 少数 据 出 处 ) 定好 了 没有 ? 如 果 需 要 ， 能 不 能 建立 数据 的 所 有 
权 ? 谁 负责 处 理 所 有 权 问 题 ?》 有 关 所 有 权 问 题 ， 谁 拥有 最 终 的 决定 权 ? 

解答 : 在 数据 仓库 环境 中 ， 数 据 的 所 有 权 或 管理 权 是 数据 仓库 环境 成 功 与 否 的 基本 因素 。 
有 时 不 可 避免 地 会 讨论 到 数据 库 的 内 容 。 对 这 种 可 能 性 ， 设 计 者 应 该 提前 计划 好 。 

31. 一 旦 数据 放 到 数据 仓库 环境 中 ， 访 如何 修改 数据 ? 修改 的 频率 如 何 ? 应 该 对 修改 进行 
监控 吗 ? 如 果 存 在 一 种 定期 修改 的 模式 ， 在 数据 源 层次 上 (也 就 是 操作 环境 下 ) 的 修改 如 何 
进行 ? 

解答 : 有 时 或 不 定期 地 需 对 数据 仓库 环境 下 的 数据 做 一 些 修改 。 如 果 出 现 这 些 修改 模式 ， 
那么 DSS 分 析 人 员 需 要 调查 一 下 操作 型 系统 中 是 否 存在 什么 问题 。 

32. 公共 汇总 数据 是 否 要 与 普通 的 原始 DSS 数据 分 开 存 放 ? 有 多 少 公共 汇总 数据 ? 是 否 应 
该 存储 用 于 创建 公共 汇总 数据 的 算法 ? 

解答 : 即使 数据 仓库 环境 包含 原始 数据 ， 在 数据 仓 亩 环境 中 存在 公共 汇总 数据 也 是 很 正 
常 的 。 设 计 者 应 该 准备 一 些 逻 辑 空 间 来 存放 这 些 数 据 。 

33. 需 对 数据 仓库 环境 中 的 数据 库 采用 哪些 安全 措施 ?如何 实施 安全 措施 ? 

解答 : 数据 访问 成 为 一 个 问题 ， 特 别 是 在 对 细节 数据 进行 汇总 或 聚集 时 。 设 计 者 需要 预 
计 到 这 种 安全 需求 ， 并 为 之 准备 好 数据 仓库 环境 。 

34. 有 什么 审计 需求 ? 怎样 满足 这 些 审计 需求 ? 

解答 : 通常 ， 系 统 审计 可 以 在 数据 仓库 层 上 做 ， 但 几乎 总 是 错误 。 相 反 ， 在 记录 系统 层 
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上 做 细节 记录 的 审计 是 最 好 的 。 

35. 是 否 采 用 数据 压缩 ? 是 否 考虑 到 压缩 /解压 缩 数 据 的 开销 ?有 什么 开销 ? 通过 DASD 压 
缩 /解压 缩 数 据 能 节省 什么 ? 

解答 : 一 方面 ， 对 数据 进行 压缩 或 编码 能 节省 大 量 的 空间 。 而 另 一 方面 ， 数 据 压缩 和 纺 
码 都 需要 CPU 时 间 ， 因 为 访问 数据 时 需要 解压 缩 或 解码 。 设 计 者 应 该 对 这 些 问 题 做 充分 的 研 
究 ， 并 在 设计 中 做 一 个 审慎 的 折 中 方案 。 

36. 需要 对 数据 进行 编码 吗 ? 考虑 到 编码 /解码 的 开销 设 有 ? 实际 上 ， 都 有 哪些 开销 ? 

解答 : (请 参看 问题 35 的 解答 ) 

37. 数据 仓库 环境 中 应 该 存储 元 数据 吗 ? 

解答 : 作为 一 条 法 则 ， 元 数据 需要 与 所 有 档案 数据 一 起 存储 。 对 于 分 析 人 员 来 说 ， 在 使 
用 档案 数据 解决 问题 的 时 候 ， 如 果 不 知道 所 分 析 的 数据 域内 容 的 含义 ， 绝 对 很 难 办 。 如 果 将 
数据 存档 时 ， 把 数据 语义 与 数据 存放 在 一 起 ， 就 可 以 缓解 前 面 的 问题 。 随 着 时 间 的 过 去 ， 数 
据 仓 库 环 境 中 的 数据 内 容 和 结构 发 生 些 变 化 是 绝对 正常 的 。 设 计 者 必须 确保 系统 能 始终 跟踪 
随 着 时 间 变 化 的 数据 定义 。 

38. 参照 数据 表 是 否 应 该 存放 在 数据 仓库 环境 中 ? 

解答 : (请 参看 问题 37 的 解答 ) 

39. 数据 仓库 环境 中 需要 维护 哪些 目录 /字典 ? 谁 负 珊 维 护 ” 如 何 保 持 更 新 ? 是 为 谁 而 准 
备 的 ? 

解答 : 不 但 随时 跟踪 数据 定义 是 一 个 问题 ， 跟 踪 数 据 仓 库 环境 中 的 当前 数据 变化 也 很 重要 。 

40. 数据 仓库 环境 中 允许 进行 数据 更 新 ( 相对 于 装载 和 访问 数据 ) 吗 ? (为 什么 ? 更 新 量 
多 少 ? 在 什么 情况 下 ? 是 不 是 仅 限于 异常 的 情况 ? ) 

解答 : 在 数据 仓库 环境 中 ， 如 果 在 正常 的 情况 下 任何 更 新 操作 都 可 以 做 的 话 ， 设 计 者 就 
应 该 探讨 一 下 其 中 的 原因 了 。 人 惟一 会 出 现 的 更 新 应 该 在 出 现 异 常 的 情况 下 ， 并 且 只 能 对 一 小 
部 分 数据 进行 的 更 新 。 除 此 以 外 都 会 严重 地 危及 数据 仓库 环境 的 功效 。 

在 做 更 新 操作 的 时 候 (如 果 确 实 要 做 )， 它 们 应 在 一 个 私有 窗口 中 执行 ， 应 该 在 系统 中 没 
有 其 他 处 理 ， 且 处 理 器 有 空闲 时 间 的 时 候 进 行 。 

41. 从 操作 型 环境 中 取 数 据 到 数据 仓库 环境 中 时 .， 有 什么 样 的 时 间 述 延 ? 这 个 时 间 迟 延 会 
不 会 少 于 24 个 小 时 ? 如 果 会 ,为 什么 ? 在 什么 情况 下 会 这 样 ? 数据 从 操作 型 环境 传送 到 数据 
仓库 环境 的 过 程 是 一 个 “ 推 ”过 程 还 是 一 个 “ 拉 ” 过 程 ? 

解答 : 从 策略 上 讲 ， 任何 少 于 24 小 时 的 时 延 都 可 能 有 问题 。 通 常 ， 如 果 需 要 少 十 24 小 时 
的 时 延 ， 表 明 开 发 者 是 在 将 操作 型 需求 构建 到 数据 仓库 中 。 流 向 数据 仓库 的 数据 流 应 该 总 是 
一 个 拉 过 程 ， 也 就 是 说 数据 在 需要 的 时 候 被 拉 进 数 据 仓库 ， 而 不 是 在 系统 可 用 的 时 候 推 到 数 
据 仓库 环 境 中。 

42. 应 该 记录 哪些 有 关 数 据 仓 库 话 动 的 日 志 ? 谁 将 访问 这 些 日 志 ? 

解答 : 大 部 分 DSS 处 理 不 需要 日 志 。 如 果 需 要 做 大 量 的 日 志 ， 通 常情 况 下 表明 人 们 对 当 
前 数据 仓库 环境 中 正在 发 生 的 处 理 的 类 型 缺乏 足够 的 理解 。 

43. 除了 公共 汇总 数据 以 外 ， 还 有 其 他 的 数据 从 部 门 层 或 个 体 层 流向 数据 仓库 环境 中 吗 ? 
如 果 有 ， 描 述 这 些 数 据 。 

解答 : 只 有 在 很 少 的 情况 下 ， 公 共 汇 总 数据 不 是 来 自 于 部 门 县 或 个 体 层 处 理 。 如 果 有 许 
多 公共 汇总 数据 来 自 于 其 他 数据 源 ， 则 分 析 者 就 应 该 寻找 一 下 原因 。 
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44. 有 什么 样 的 外 部 数据 ( 即 不 是 由 企业 内 部 的 数据 源 和 系统 产生 的 数据 ) 进入 数据 仓库 
环境 ? 这 些 数据 要 不 要 加 上 特别 标记 ? 它们 的 数据 源 要 与 数据 存储 在 一 起 吗 ? 这 些 外 部 数据 
进入 系统 的 频率 如 何 ? 有 多 少 外 部 数据 进入 ? 是否 需要 非 结 构 化 的 格式 ?如 果 发 现 外 部 数据 
不 准确 会 出 现 什么 情况 ? | 

解答 : 除了 公司 的 操作 型 系统 外 ， 虽 然 允 许 存 在 一 些 合理 的 外 部 数据 源 ， 但 是 ， 如 果 有 
许多 数据 从 外 部 进入 时 ， 分 析 人 员 应 该 寻找 一 下 原因 。 在 外 部 数据 的 内 容 和 规则 的 可 用 性 方 
面 ， 所 能 具有 的 灵活 性 都 不 可 避免 地 要 少 得 多 ， 虽 然 说 外 部 数据 也 是 一 个 不 可 忽视 的 重要 数 
据 源 。 

45. 有 什么 样 的 环境 工具 能 帮助 部 门 和 个 体 用 户 查 找 数据 仓库 环境 中 的 数据 ? 

解答 : 数据 仓库 的 一 个 主要 特点 就 是 易于 访问 数据 。 而 数据 的 可 存 取 性 问题 第 一 步 就 是 
这 些 数据 的 初始 位 置 。 

46. 有 人 尝试 将 操作 型 处 理 和 DSS 处 理 同时 混在 一 台 机 器 上 吗 ? 如 果 这 样 : 

。 为 什么 ? 

。 有 多 少 处 理 ? 

。 有 多 少数 据 ? 

解答 : 出 于 许多 方面 的 考虑 ， 同 时 将 操作 型 处 理 和 DSS 处 理 混合 在 同一 台 机 器 上 是 没有 什 
么 意义 的 。 只 有 在 数据 量 和 处 理 量 都 很 小 的 时 候 ， 才 有 可 能 进行 混合 。 但 在 这 样 的 情况 下 ， 数 
据 仓 库 环境 无 法 达到 最 大 成 本 效益 。( 请 参阅 我 先前 的 书 《Data Architecture: The Information 
Paradigm》，Wellesey, MA: QED/Wiley，1992 年 出 版 ， 该 书 对 此 问题 有 更 深 的 探讨 。) 

47. 有 多 少数 据 会 从 数据 仓库 层 流 回 到 操作 层 ? 按照 什么 频率 ? 数据 量 多 大 ? 对 响应 时 间 
有 什么 限制 ? 回流 的 数据 是 汇总 性 数据 还 是 单个 数据 单元 ? 

解答 : 通常 ， 数 据 从 操作 型 处 理 流 向 仓库 层 处 理 ， 再 流向 部 门 层 处 理 ， 再 流向 个 体 层 处 
理 。 也 存在 一 些 值得 注意 的 例外 情况 ， 只 要 没有 太 多 的 数据 “回流 ”， 并 且 回 流 是 以 有 序 的 方 
式 执行 的 ， 通 常 不 会 出 现 问 题 。 然 而 ， 如 果 回 流 时 所 涉及 的 数据 量 很 大 ， 就 说 明 有 问题 了 。 

48. 会 出 现 多 少 针 对 数据 仓库 环境 的 反复 性 处 理 ” 导 出 数据 的 预先 计算 和 存储 能 节省 处 理 
时 间 吗 ? 

解答 : 对 于 数据 仓库 环境 而 言 ， 具 有 一 定量 的 反复 性 处 理 绝对 是 正常 的 。 然 而 ， 如 果 只 
做 反复 性 处 理 ， 或 恨 本 没有 计划 任何 反复 性 处 理 ， 设 计 者 就 应 去 找 一 下 原因 。 

49. 主要 主题 该 如 何 划 分 ? ( 按 年 ? 按 地 域 ? 按 功能 单元 ? 按 生产 线 ? ) 对 数据 进行 分 区 
的 精细 程度 如 何 ? 

解答 : 考虑 到 数据 仓库 环境 所 固有 的 数据 量 以 及 数据 用 途 的 不 可 预测 性 ， 必 须要 求 把 数 
据 仓库 数据 在 物理 上 划分 为 小 单元 ， 以 便 独立 地 管理 。 我 们 要 面 对 的 设计 问题 不 是 是 否 应 该 
进行 分 区 ， 而 是 该 如 何 进行 分 区 的 问题 。 一 般 地 ， 分 区 是 在 应 用 层 而 不 是 在 系统 层 进行 。 

对 分 区 策略 进行 复查 的 时 候 ， 应 注意 以 下 问题 : 

。 当 前 数据 量 ， 

“未 来 数据 量 ， 

*。 数据 的 当前 用 途 ， 

。 数 据 的 未 来 用 途 ， 

。 仓库 中 其 他 数据 的 分 区 问题 ， 

* 其 他 数据 的 用 途 ， 
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“数据 结构 变动 性 。 

50. 要 创建 稀 朴 索引 吗 ” 它 们 有 用 吗 ? 

解答 : 在 合适 的 地 方 创建 的 稀疏 索引 能 够 节省 大 量 的 处 理 。 出 于 同样 的 原因 ， 稀 疏 索 引 
创建 和 维护 需要 相当 数量 的 额外 开销 。 数 据 仓库 环境 的 设计 者 应 芳 虚 好 它们 的 使 用 问题 。 

51. 要 创建 什么 样 的 临时 索引 ? 要 保留 多 长 时 间 ? 它们 会 有 多 大 ? 

解答 : (参看 问题 50 的 解答 ， 它 也 适合 于 临时 索引 ) 

52. 部 门 层 和 个 体 层 会 有 什么 文档 ? 有 关 数 据 仓库 环境 和 部 门 坏 境 之 间 的 接口 、 部 门 环 境 
和 个 体 环境 之 间 的 接口 、 数 据 仓库 环境 和 个 体 环 境 之 间 的 接口 都 有 些 什么 文档 ? 

解答 : 在 部 门 和 个 体 环 境 中 ， 考 虑 它们 的 处 理 具有 形式 自由 的 特性 ， 不 太 可 能 有 太 多 的 
可 用 文档 。 然 而 ， 有 关 各 个 环境 之 间 的 关系 的 文档 对 数据 的 一 致 性 是 很 重要 的 。 

53. 用 户 要 为 部 门 层 处 理 、 个 体 层 处 理 付费 吗 ? 谁 承担 数据 仓库 处 理 的 费用 ? 

解答 : 有 一 点 是 很 重要 的 .就 是 用 户 必须 有 自己 的 预算 ， 必 须 为 所 使 用 的 资源 付费 。 一 
且 处 理 过 程 “ 免 费 ”， 可 想 而 知 ， 会 出 现 很 多 滥用 资源 的 现象 。 付 费 可 以 增加 使 用 资源 的 责任 
成 分 。 

54. 如 果 数 据 仓 库 环 境 是 分 布 式 的 ， 有 没有 确定 数据 仓库 的 公用 部 分 ?如 何 进行 管理 ? 

解答 :在 分 布 式 数据 仓库 环境 中 ，-- 些 数据 必然 受到 严密 的 控制 。 这 些 数据 需要 由 设计 
者 和 存放 在 合适 地 方 的 元 数据 控制 部 件 预先 标识 出 来 。 

55. 数据 仓库 中 将 有 什么 监控 机 制 ? 在 数据 表 级 进行 监控 ? 在 数据 行 级 进行 监控 ? 还 是 在 
数据 列 级 进行 监控 ? 

解答 :对 数据 仓库 数据 的 使 用 必须 进行 监控 ， 以 判定 数据 的 不 活跃 比例 。 监 控 必须 在 表 
级 、 数 据 行 级 和 数据 列 级 进行 。 另 外 ， 也 有 必要 对 数据 库 的 事务 实施 监控 。 

56. 要 支持 第 IV 类 ODS 吗 ? 支持 第 IV 类 ODS 处 理 对 数据 仓库 性 能 的 影响 会 有 多 大 ? 

解答 : 第 IV 类 ODS 由 数据 仓库 提供 数据 ， 在 数据 仓库 中 可 以 找到 在 第 IV 类 ODS 中 用 于 创 
建 概要 数据 所 需 的 数据 。 

57. 数据 仓库 中 需要 什么 测试 工具 ? 

解答 : 在 数据 仓库 中 ， 测 试 的 重要 性 与 操作 型 事务 环境 中 的 测试 的 重要 性 处 于 不 同 的 层 
次 。 但 数据 仓库 中 偶尔 有 测试 的 需要 ， 特 别 是 在 装载 新 类 型 的 数据 和 在 数据 晤 非常 大 的 时 候 。 

58. 数据 仓库 需要 为 哪些 DSS 应 用 提供 数据 ? 需要 提供 的 数据 量 有 多 少 ? 

解答 : DSS 应 用 就 像 数据 集 市 一 样 ， 需 要 从 数据 仓库 取得 数据 。 这 其 中 涉及 的 问题 包括 
何 时 对 数据 仓库 进行 检测 、 检 测 频率 如 何 、 分 析 对 性 能 造成 怎样 的 影响 等 。 

59. 数据 仓库 是 否 需要 为 探查 型 仓库 和 /或 数据 挖掘 型 仓库 提供 数据 ? 如 果 不 需 要 ， 探 查 
处 理 是 否 在 数据 仓库 中 直接 进行 ? 如 果 需 要 ， 需 要 为 探查 型 /数据 挖掘 仓库 提供 什么 资源 ? 

解答 : 创建 一 个 探查 型 和 /或 数据 挖 据 型 数据 仓库 能 大 大 减轻 数据 仓库 的 资源 负担 。 当 探 
查 频 率 比较 高 ， 使 得 统计 分 析 开 始 对 数据 仓库 的 资源 带 来 冲击 时 才 需 要 建立 探查 型 数据 仓库 。 

这 里 的 问题 包括 更 新 频率 和 需要 更 新 的 数据 量 。 另 外 ， 也 经 常 有 数据 仓库 增长 式 更 新 的 
需要 。 

60. 在 运行 过 程 中 ， 将 数据 装载 到 数据 仓库 需要 什么 资源 ? 是 否 会 因为 装载 量 大 而 无 法 在 
给 定时 间 窗 口内 载 和 数据 ? 是 否 需要 对 装载 过 程 实施 并 行 处 理 ? 

解答 有 时 ， 需 要 装载 到 数据 仓库 的 数据 太 多 ， 从 而 使 得 装载 时 间 窗 口 不 够 大 。 当 装载 
量 太 大 时 ， 有 以 下 几 个 可 选 的 解决 方法 : 
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“建立 一 个 缓冲 区 ， 可 以 对 需要 装载 的 数据 进行 尽量 多 的 独立 预 处 理工 作 。 

。 对 装载 流 进 行 并 行 处 理 ， 使 装载 所 需 的 时 间 缩 短 ， 使 装载 能 正常 处 理 。 

。 对 需要 装载 的 数据 进行 编辑 或 汇总 ， 使 实际 装载 量 减少 。 

61. 主题 域 的 中 间 层 模型 已 经 建立 到 什么 程度 ? 不 同 的 中 间 层 模型 之 间 有 关系 蚂 ? 

解答 : 每 一 个 主要 主题 域 都 有 自己 的 中 间 层 数据 模型 。 通 常 ， 只 有 当 开 发 设计 该 主题 的 
某 一 次 反复 过 程 中 需要 建立 某 个 中 间 层 模型 时 才 会 建立 该 模型 。 另 外 ， 中 间 层 数据 模型 之 间 
的 关联 方式 与 主要 主题 域 间 的 关联 方式 相同 。 

62. 为 了 需要 由 数据 仓库 提供 数据 的 体系 结构 中 的 不 同 成 员 服 务 ， 数 据 仓 库 数据 的 粒度 级 
是 否 足够 低 ? 

解答 : 数据 仓库 为 体系 结构 中 的 许多 不 同 成 员 提 供 数 据 。 数据 仓库 的 粒度 级 必须 足够 低 ， 
以 便 为 企业 信息 工厂 (Corporate Information Factory, CIF) 结构 中 的 最 低层 数据 需求 提供 数 
据 。 这 也 是 为 什么 说 数据 仓库 的 数据 是 最 小 公分 母 的 原因 。 

63. 如 果 数 据 仓 库 中 需要 存储 电子 商务 数据 和 点 击 流 数据 ， 粒 度 管理 器 在 何 种 程度 上 对 数 
据 进行 过 滤 ? 

解答 : 基于 Web 环 境 会 生成 大 量 的 数据 ， 所 生成 的 数据 的 粒度 级 非常 低 。 为 了 在 数据 进 
人 数据 仓库 以 前 对 数据 进行 汇总 和 聚集 ， 数 据 传送 给 粒度 管理 器 。 粒 度 管理 器 能 大 大 缩小 要 
进入 数据 仓库 的 数据 的 量 。 

64. 磁盘 存储 数据 和 其 他 介质 存储 数据 的 划分 标准 是 什么 ? 

解答 : 对 于 将 数据 放置 在 磁盘 上 还 是 其 他 存储 设备 上 的 问题 ， 多 数 企业 采用 的 常见 方法 
是 将 最 新 的 数据 放 在 磁盘 上 ， 而 将 较 有 的 数据 放置 在 备用 存储 介质 上 。 典 型 地 ， 磁 盘存 储 可 
以 存储 两 年 的 数据 ， 而 在 备用 存储 器 上 存储 所 有 的 比 两 年 时 间 更 长 的 数据 。 

65. 如 何 管理 磁盘 存储 器 和 备份 存储 器 之 间 的 数据 移动 ? 

解答 : 多 数 企业 利用 软件 管理 磁盘 存储 器 和 备份 存储 器 间 的 数据 流 。 这 种 软件 通常 称 为 
跨 介 质 存 储 管理 器 (CMSM )。 

66. 如 果 某 个 数据 仓库 是 全 球 型 数据 仓库 ， 本 地 需要 存储 什么 数据 ?在 全 球 范围 内 又 需要 
存储 什么 数据 ? 

解答 : 当 数据 仓库 是 全 球 型 数据 仓库 时 ， 一 些 数据 将 集中 存储 ， 另 外 一 些 数据 则 将 在 本 
地 存放 。 根 据 数据 的 使 用 情况 来 决定 数据 存储 方式 。 

67. 对 于 一 个 全 球 型 的 数据 仓库 ， 能 否 保证 数据 能 在 国际 间 传 送 ? 

解答 : 一 些 国家 的 法 律 不 允许 数据 越过 它们 的 国界 。 全 球 型 的 数据 仓库 必须 确保 不 会 违 
反 国 际 法 。 

68. 对 ERP 环 境 ， 是 否 已 经 确定 数据 仓库 将 放 在 什么 地 方 ? 是 在 ERP 软 件 中 还 是 在 ERP 环 
境外 ? 

解答 : 数据 仓库 放 在 何 处 取决 于 许多 因素 : 

。ERP 提 供 商 是 否 对 数据 仓库 提供 支持 ? 

。 韭 ERP 数 据 能 否 放 入 数据 仓库 中 ? 

。 如 果 数 据 仓库 放置 在 ERP 坏 境 中 ， 在 数据 仓库 上 可 以 使 用 什么 分 析 型 软件 ? 

。 如 果 数 据 仓库 放置 在 ERP 环 境 中 ， 应 用 使 用 什么 DBMS? 

69. 备用 存储 器 能 否 得 到 独立 的 处 理 ? 

解答 : 旧 数 据 存储 在 海量 存储 介质 中 ， 如 果 能 独立 地 处 理 备 用 存储 介质 上 的 数据 ， 经 常 
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会 非常 有 用 。 

70. 正在 采用 的 开发 方法 应 该 是 一 个 螺旋 式 的 开发 方法 ， 还 是 一 个 传统 的 瀑布 式 的 开发 
方法 ? 

解答 : 对 于 数据 仓库 环境 而 言 ， 螺 旋 式 的 开发 总 是 正确 的 开发 方式 。 瀑 布 式 的 SDLC 方 法 
永远 不 会 是 合适 的 方法 。 

71. 是 否 需要 采用 ETL 工 具 将 数据 从 操作 型 环境 移 到 数据 仓库 环境 ， 还 是 手工 实现 这 些 转 
换 操作 ? 

解答 : 几乎 在 每 一 个 实例 中 ， 采 用 具有 自动 转换 功能 的 装载 工具 ， 将 数据 装载 到 数据 仓 
库 环 境 中 都 具有 一 定 的 意义 。 只 有 当 需 要 装载 到 数据 仓库 环境 中 的 数据 只 具有 很 小 的 量 时 候 ， 
才 可 以 考虑 采用 手工 方法 加 以 实现 。 

72. 非 结 构 化 数据 是 否 进入 数据 仓库 ? 

解答 : 非 结构 化 数据 在 数据 仓库 中 可 能 有 意义 ， 但 对 其 进行 集成 却 很 困难 。 如 果 要 使 用 
非 结 构 化 数据 ， 那 么 在 它们 进入 数据 仓库 之 前 ， 就 要 对 它们 进行 编辑 和 组 织 。 编 辑 包括 删除 
终结 字符 和 填塞 字符 。 而 且 ， 一 定 要 找到 标识 符 。 有 用 的 标识 符 一 共有 两 种 : 标识 符 和 紧密 
标识 符 。 标 识 符 是 指 那些 专门 用 于 标识 账户 的 项 目 。 典 型 的 标识 符 如 社会 保险 号 码 ， 执 照 号 
码 以 及 员工 号 。 典 型 的 紧密 标识 符 如 姓名 ， 地 址 以 及 其 他 描述 性 的 信息 。 

除了 对 其 文本 进行 编辑 以 外 ， 还 要 对 非 结 构 化 数据 进行 屏 项 。 很 多 文本 都 是 “废话 "。 上 废 
话 对 商务 智能 毫 无 贡献 ， 因 此 不 能 进入 数据 仓库 。 

73. 企业 交流 信息 在 进入 数据 仓库 之 前 ， 是 否 要 被 组 织 一 下 ? 

解答 : 企业 交流 信息 有 可 能 对 数据 仓库 非常 有 用 。 典 型 的 情况 下 ， 企 业 交流 数据 可 以 补 
充 客户 关系 管理 (CRM) 数据 。 但 是 ， 要 企业 交流 信息 发 挥 作用 ， 必 须根 据 标 识 符 对 它 进行 
编辑 和 组 织 。 而 且 ， 这 些 编辑 和 组 织 能 够 对 交流 信息 进行 分 类 ， 区 分 出 哪些 是 重要 信息 ， 哪 
些 是 不 重要 的 信息 。 

74. 有 没有 要 重新 回 到 非 结 构 化 环境 查看 相关 信息 的 需求 ? 

解答 : 非 结构 化 环境 的 需求 间或 会 有 。 问 题 是 ， 可 能 非 结构 化 环境 要 找 的 相关 数据 已 经 
不 在 那里 了 。 比 如 ， 电 子 邮 件 被 删除 。 文 本 文件 被 删除 。 数 据 的 存储 地 点 发 生 了 改变 。 为 了 
在 非 结构 化 环境 中 找到 曾经 转移 位 置 的 数据 ， 能 做 出 的 应 急 计 划 是 什么 ? 

75. 数据 仓库 环境 中 的 非 结 构 化 数据 可 能 占用 大 量 的 空间 。 如 何 能 使 结构 化 环境 中 的 非 结 
构 化 数据 所 需 空间 最 小 化 ? 

解答 : 不 用 外 部 因素 和 干预， 数据 仓库 本 身 就 可 以 变 得 很 大 。 但 非 结构 化 数据 加 入 到 数据 仓 
库 中 以 后 ， 大 量 数据 增长 很 快 。 有 几 个 办 法 可 以 使 非 结 构 化 数据 占用 的 空间 达到 最 小 ， 包 括 : 

“使 用 简单 索引 。 如 果 一 组 非 结 构 化 数据 不 必 在 线 ， 就 可 以 只 需 简单 的 创建 一 个 指向 找到 

它 的 地 方 的 索引 

。 使 用 非 结构 化 文档 的 前 a 个 字 节 ， 使 用 户 能 够 知道 ， 这 个 非 结 构 化 文档 一 开始 是 什么 样 

子 的 。 这 样 做 ， 就 很 可 能 不 需要 存储 整个 文档 了 。 

“指出 环绕 非 结构 化 数据 的 上 下 文 关键 字 。 这 些 关 键 字 能 告诉 用 户 一 些 关于 文档 的 信息 ， 

并 且 可 以 提示 用 户 找到 和 使 用 关键 字 的 上 下 文 环 境 。 

76. 数据 仓库 在 使 用 的 过 程 当中 是 不 是 要 有 规律 的 监测 ? 

解答 : 随 着 数据 仓库 逐渐 变 大 ， 其 中 的 大 量 数据 的 使 用 情况 开始 出 现 差别 。 一 些 数据 的 
使 用 频率 不 高 ， 一 些 数据 使 用 频率 很 高 。 因 此 ， 数 据 管理 员 一定 要 弄 清 什么 时 候 它们 之 间 开 
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始 出 现 分 界线 。 

77. 使 用 过 程 中 ， 是 不 是 还 要 按 列 监测 数据 ? 

解答 : 靠 行 来 监测 数据 是 不 够 的 。 有 时 ， 有 一 些 根 本 不 会 用 到 的 列 也 会 包含 到 数据 仓库 
中 。 有 必要 去 除 这 些 列 。 

78. 数据 监测 要 耗费 多 少 资 源 ? 

解答 : 典型 的 情况 下 ， 由 DBMS 供 应 商 提供 的 监测 要 耗费 大 量 的 资源 。 通常 在 高 峰 时 期 
关 掉 监测 程序 。 但 不 幸 的 是 ， 高 峰 时 期 也 是 需要 监测 程序 运行 的 时 期 。 第 三 方 软件 在 监测 数 
据 仓 库 方面 往往 比 供应 商 提供 的 软件 更 有 效率 。 

79. 使 用 过 程 中 ， 数 据 是 不 是 按 行 监测 ? 

解答 : 通常 按 行 监测 使 用 情况 。 没 有 访问 的 数据 行 应 该 从 数据 仓库 中 移出 ， 它 们 应 转移 
到 近 线 存储 或 存档 存储 。 

80. 在 数据 从 磁盘 存储 转移 到 近 线 存储 ， 或 从 磁盘 存储 转移 到 存档 存储 过 程 中 ， 应 该 如 何 
管理 数据 ? 

解答 : 是否 使 用 CMSM? 转移 过 程 是 否 手 工 操作 ? 如 果 手 工 操 作 ， 需 要 多 少时 间 ? 需要 
哪 一 种 操作 窗口 ? 

81. 是 什么 通知 系统 ， 可 以 对 近 线 存储 或 存档 存储 进行 查询 ? 

解答 : 如 果 系 统 在 查询 执行 开始 前 一 直 等 待 ， 那 么 系统 别 无 选择 ， 只 能 访问 近 线 存储 或 
存档 存储 中 的 数据 。 如 果 用 户 能 在 查询 以 前 提交 一 个 查询 请 求 队列 ， 情 况 就 好 多 了 。 还 有 一 
种 办 法 ， 就 是 对 要 访问 近 线 数据 的 查询 过 程 进行 解析 ， 然 后 把 它们 放 入 等 待 队列 。 

82. 数据 的 增长 率 有 多 少 ? 

解答 : 数据 仓库 当中 大 量 的 数据 是 一 个 问题 ， 它 的 增长 率 也 是 一 个 问题 。 最 好 一 开始 的 
时 候 就 能 预测 增长 率 ， 准 备 相应 的 空间 。 

83. 数据 仓库 中 是 否 应 用 多 维 数据 库 设 计 ? 

解答 : 多 维 设计 主要 应 用 于 数据 集 市 和 其 他 的 分 析 结 构 ， 它 不 适合 数据 仓库 。 

84. 数据 仓库 中 是 否 要 执行 某 种 程度 的 统计 分 析 ? 

解答 : 如 果 数 据 仓库 要 进行 一 定 程度 的 统计 分 析 ， 那 么 最 好 是 在 探查 型 数据 仓库 中 进行 。 

85. 为 了 进行 统计 分 析 ， 是 否 外 部 数据 要 进入 数据 仓库 ? 

解答 : 如 果 外 部 数据 放 入 数据 仓库 进行 统计 分 析 ， 最 好 是 另外 建 一 个 探查 型 数据 仓库 ， 
将 外 部 数据 放 入 其 中 。 

86. 数据 集 市 是 否 与 数据 仓库 共用 一 个 物理 处 理 器 ? 

解答 : 由 于 多 种 原因 ， 这 样 做 毫 无 意义 。 因 为 工作 量 不 同 ， 机 器 周期 花费 不 同 ， 所 收集 
的 数据 量 不 同 ， 将 数据 集 市 移 到 另 一 个 处 理 器 上 比较 好 。 

实际 上 ， 不 同 的 数据 集 市 放 在 不 同 的 处 理 器 上 也 有 意义 。 这 样 以 来 ， 企 业 中 不 同 的 机 构 
能 够 分 配 到 各 自 的 处 理 器 ， 用 来 针对 不 同 的 数据 集 市 进行 各 自 的 处 理 。 

87. 是 否 对 数据 仓库 中 的 数据 速率 进行 计算 ? 是 否 有 必要 提高 数据 速率 ? 

解答 : 数据 通过 数据 仓库 是 有 一 定 的 速率 的 。 有 时 有 必要 使 数据 尽快 地 推 人 数据 仓库 。 
但 这 样 ， 高 速率 要 付出 的 代价 也 会 很 高 。 因 此 ， 从 经 济 的 角度 要 对 此 进行 衡量 。 有 时 ， 在 数 
据 仓库 上 建立 操作 型 系统 也 需要 较 高 的 速率 。 如 果 是 这 样 ， 把 操作 型 处 理 移 到 别处 。 

88. 是 否 要 把 点 击 荡 数据 移入 数据 仓库 ? 如 果 是 ， 点 击 流 数据 是 否 通过 粒度 管理 器 ? 

解答 : 点 击 流 数据 是 由 网 络 环境 生成 的 。 大 概 90% 的 点 击 流 数据 在 进入 数据 仓库 之 前 ， 
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需要 合并 或 去 除 。 

89. 点 击 流 数 据 是 不 是 不 先 经 过 粒度 管理 器 就 进入 数据 仓库 ? 

解答 : 如 果 数 据 不 经 过 粒度 管理 器 ， 是 绝对 不 能 从 网 络 环境 进入 数据 仓库 当中 的 。 数 据 
仓库 中 的 数据 已 经 够 多 了 ， 不 需要 再 加 入 很 多 的 无 关 紧要 的 细节 数据 。 

90. 数据 是 否 从 数据 仓库 直接 进入 网 络 环境 ? 

解答 : 合适 的 选择 是 将 数据 从 数据 仓库 移 人 ODS 环境 。 一 旦 进入 ODS 环境 ， 数 据 就 被 收 
集 ， 以 备 网 络 环境 使 用 。 基 本 上 在 任何 情况 下 ， 数 据 从 数据 仓库 环境 进入 网 络 环境 都 是 一 个 
鉴 脚 的 主意 。 数 据 仓库 根本 不 能 满足 网 络 环境 的 反应 时 间 要 求 。 

91. 在 数据 仓库 中 ,是否 要 进行 “实时 ”的 数据 仓库 处 理 ? 

解答 : 数据 仓库 处 理 最 好 在 ODS 环境 中 进行 。ODS 环 境 与 数据 仓库 环境 在 物理 上 是 分 开 
的 。 尽管 数据 仓库 环境 在 一 天 中 的 非 高 峰 期 能 够 经 受 少量 的 实时 处 理 ， 但 在 数据 仓库 上 进行 
实时 处 理 就 犯 了 战略 上 的 错误 。 

92. 是 否 要 在 ODS 环 境 中 收集 和 创建 概要 记录 ? 

解答 : ODS 环 境 的 一 个 最 好 用 途 就 是 收集 数据 仓库 当中 的 处 理 数 据 ， 然 后 用 它们 创建 概 
要 记录 。 一 旦 ODS 创建 了 概要 记录 ， 就 可 以 以 毫秒 级 别 对 概要 记录 进行 访问 ， 无 论 访问 来 自 
于 网 络 环 境 或 其 他 的 地 方 。 

93. 数据 仓库 中 的 数据 是 否 直 接 使 用 ? 

解答 : 随 着 时 间 流 煌 ， 数 据 仓库 中 的 数据 使 用 从 直接 转向 间接 。 如 果 五 年 以 后 ， 数 据 仓 
库 中 的 数据 还 是 经 常 直 接 使 用 ， 那 么 就 要 问 这 样 的 问题 : 我 们 是 否 有 必要 创建 其 他 应 用 分 析 
程序 的 数据 集 市 。 

94. 最 终 用 户 是 否 不 能 使 用 数据 仓库 中 的 数据 ? 

解答 : 尽管 数据 仓库 的 使 用 者 很 少 ， 但 也 不 能 说 没 人 直接 使 用 数据 仓库 中 的 数据 。 就 算 
在 数据 仓库 成 熟 以 后 ， 还 有 直接 使 用 其 数据 的 情况 ， 而 且 ， 这 种 使 用 还 有 一 定 的 意义 。 

95. 是 否 监测 数据 仓库 可 以 发 现 出 现 了 某 些 使 用 模式 ? 

解答 : 如 果 数 据 仓 库 中 出 现 了 使 用 模式 ， 就 是 时 候 问 这 样 的 问题 了: “是 不 是 要 创建 数据 
集 市 或 其 他 形式 的 分 析 过 程 ? ” 

96. 用 户 在 使 用 数据 仓库 之 前 ， 要 对 他 们 做 什么 样 的 培训 ? 

解答 : 很 多 情况 下 ， 对 您 的 顾客 进行 培训 可 是 有 利 可 图 的 一 件 事情 。 

97. 您 的 顾客 如 何 能 够 跟 上 数据 仓库 所 作 的 改变 ? 

解答 .数据 仓库 会 随时 间 而 改变 。 数 据 仓库 特性 的 改变 或 者 是 数据 的 改变 可 以 给 您 的 用 
户 带 来 很 多 的 好 处 ， 但 是 如 果 您 的 用 户 不 知道 这 些 改变 可 就 不 行 了 。 

98. 数据 仓库 主要 由 农民 使 用 ， 还 是 主要 由 探查 者 使 用 ? 

解答 : 成 熟 的 数据 仓库 能 满足 农民 和 探查 者 的 共 辣 需要 。 如 果 您 不 通过 多 种 方式 使 用 数 
据 仓 库 ， 那 么 您 的 投资 可 就 没有 达到 最 大 的 效率 。 


19.7 小 结 


设计 复查 是 一 个 重要 的 质量 保证 环节 ， 它 可 以 大 大 好 提高 用 户 满意 程度 和 减少 开发 、 维 
护 的 费用 。 在 建立 数据 仓库 之 前 ， 彻 底 地 对 数据 仓库 环境 的 许多 方面 进行 复查 ， 是 一 种 很 有 
效 而 且 很 有 益处 的 工作 。 复 查 时 既 应 关注 详细 设计 ， 也 应 关注 总 体 的 体系 结构 。 





b> N 
术 语 表 

access (访问 ) 在 存储 单元 上 查找 、 读 或 写 数据 的 操作 。 

access method (访问 方法 ) 传输 物理 记录 到 大 容量 存储 设备 或 反 向 传输 的 技术 。 

access pattern (访问 模式 ) 访问 数据 结构 的 一 般 顺 序 (例如 ， 从 元 组 到 元 组 ， 从 行 到 行 ， 
从 记录 到 记录 ， 从 段 到 段 等 )。 

accuracy (准确 度 ) 不 出 现 误差 的 定性 估计 或 误差 数量 级 的 定量 度量 ， 用 一 个 相对 误差 
的 函数 表示 。 

ad hoc processing (特别 处 理 ) 偶尔 的 、 仅 执行 一 次 的 数据 访问 或 操作 ， 使 用 从 未 用 过 
的 参数 ， 通 常 在 启发 式 的 、 迭 代 的 方式 下 进行 。 

after image (后 映像 ) 一 个 事务 完成 后 存放 在 日 志 上 的 数据 快照 。 

agent of change (变化 动因 ) 无 法 抗拒 的 强大 推动 力 ， 通 常 是 系统 的 老化 ， 技 术 的 变化 ， 
需求 的 巨大 变化 等 。 

algorithm (算法 ) 组 织 起 来 用 于 在 有 限 步 又 内 解决 问题 的 语句 集合 。 

alternate storage (备用 存储 器 ) 基于 磁盘 的 存储 以 外 的 ， 用 于 存储 大 批量 的 相对 不 活跃 
的 数据 的 存储 。 

analytical processing (分 析 型 处 理 ) 使 用 计算 机 为 管理 决策 提供 分 析 功 能 ， 通 常 包括 趋 
势 分 析 、 向 下 钻 取 分 析 、 统 计 分 析 、 概 要 等 等 。 

application (应 用 ) 支持 一 个 企业 需求 的 一 组 算法 和 数据 的 有 机 结合 体 。 

application database (应 用 数据 库 ) 组 织 起 来 用 于 支持 特定 应 用 的 数据 集合 。 

archival database (存档 数据 库 ) 历史 性 数据 的 集合 。 通 常 ， 存 档 数据 是 不 可 更 改 的 。 
每 个 存档 单元 都 和 一 个 (过 去 的 ) 时 间 点 有 关 。 

artifact (人 工 关 系 ) 在 DSS 环境 中 用 于 代表 参照 完整 性 的 一 种 设计 技术 参见 decision- 
support System (DSS ) 。 

atomic (原子 的 ) (1) 存储 在 数据 仓库 中 的 数据 ; (2) 分 析 处 理 的 最 低层 次 。 

atomic database ( 原子 数据 库 ) 由 原始 原子 数据 组 成 的 数据 库 ;一 个 数据 仓库 ;一 个 DSS 
基础 数据 库 参 见 decision-support System (DSS)。 

atomic-level data (原子 层 数 据 ) 最 低 粒度 级 别 的 数据 。 原 子 层 数据 存放 在 数据 仓库 中 ， 
是 随时 间 变 化 的 〈 即 精确 到 过 去 的 某 一 时 刻 )。 

attribute (属性 ) 具有 表现 实体 或 实体 间 关 系 的 值 的 特性 。 实 体 可 以 赋予 多 个 属性 (例如 ， 
关系 中 的 一 个 元 组 由 多 个 值 组 成 )。 一 些 系统 也 允许 关系 拥有 属性 。 

audit trail (审计 追踪 ) 记录 下 来 用 于 跟踪 各 种 活动 的 数据 ， 这 些 活动 通常 是 更 新 活动 。 

backup (备份 文件 ) 作为 数据 库 备 份 操 作 基 础 的 一 个 数据 文件 ， 通 常 是 以 前 某 一 时 刻 某 
个 数据 库 的 一 个 快照 。 

batch ( 批 处 理 ) 一 种 计算 机 环境 ， 在 这 种 环境 中 ， 程序 (通常 是 长 时 间 顺 序 运行 的 ) 以 
独占 方式 访问 数据 ， 当 工作 正在 进行 时 不 允许 发 生 用 户 交 互 。 

batch environment ( 批 处 理 环 境 ) 一 个 顺序 控制 处 理 模 型 ;在 批 处 理 中 , 收集 并 存储 输入 ， 
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为 后 续 处 理 做 准备 。 一 旦 收集 好 ， 批 处 理 输 入 将 顺序 地 在 一 个 或 多 个 数据 库 中 得 到 处 理 。 

before image (前 映像 ) 记录 没有 更 新 前 的 快照 ， 通 常 放 在 活动 日 志 中 。 

bitmap (位 图 ) 索引 的 一 种 特定 形式 ， 用 于 在 某 种 条 件 下 表示 一 组 块 或 记录 是 否 存在 。 
位 图 的 建立 和 维护 非常 郧 贵 ， 但 是 提供 了 非常 快 的 比较 和 访问 手段 。 

blocking (组 块 ) 合并 两 个 或 多 个 物理 记录 ， 使 它们 在 物理 上 放 在 一 起 。 物 理 位 置 相连 的 
结果 是 可 以 通过 执行 单个 机 器 指令 来 访问 和 获取 这 些 记录 。 

cache (高 速 缓存 ) 通常 在 设备 级 建立 和 维护 的 缓冲 区 。 从 高 速 缓存 中 检索 数据 要 比 从 磁 
盘 柱 面 上 检索 数据 快 得 多 。 

cardinality (of arelation ) (关系 的 基数 ) 关系 中 的 元 组 (即行) 的 数目 。 

CASE 计算 机 辅助 软件 工程 。 

checkpoint (检查 点 ) 一 个 被 标识 出 来 的 数据 库 快照 ， 或 者 茶 个 被 冻结 或 停顿 的 数据 库 
上 的 事务 的 处 理 点 。 

checkpoint/restart (检查 点 /重启 动 ) 程序 重启 动 时 从 某 点 而 不 是 程序 的 起 始点 开始 的 一 
种 手段 (例如 出 现 失败 或 发 生 中 断 时 )。 在 应 用 程序 中 的 各 个 间断 处 ， 可 以 有 AN 个 检查 点 。 在 
每 个 点 上 ， 要 存储 足够 的 信息 以 便 程 序 能 够 恢复 到 设置 检查 点 时 的 状态 。 

CLDS 给 分 析 型 的 DSS 系 统 开发 生命 周期 起 的 一 个 滑稽 名 字 。 实 际 上 它 是 经 典 的 系统 开 
发 生命 周期 (SDLC, System Development Life Cycle) 的 反 写 。 

clickstream data (点 击 流 数 据 ) 在 Web 环 境 中 生成 ， 记 录 了 用 户 在 网 站 的 活动 的 数据 。 

column (属性 列 ) 一 个 垂直 的 表 ， 其 中 的 值 是 从 相同 的 域 中 选取 的 。 记 录 的 一 行 由 一 个 
或 多 个 属性 列 值 组 成 。 

commonality of data (数据 通用 性 ) 在 不 同 应 用 或 系统 中 存在 的 类 似 或 相同 的 数据 ， 数 
据 通用 性 的 识别 和 管理 是 概念 数据 库 和 物理 数据 库 设 计 的 一 项 基础 工作 。 

Common Business Oriented Language (COBOL ) (面向 通用 商业 的 语言 )， 商 业 领 域 
中 的 计算 机 语言 。 一 种 非常 通用 的 语言 。 

compaction (压缩 ) 一 种 用 于 减少 数据 表示 位 数 而 不 丢失 数据 内 容 的 技术 。 采 用 压缩 技 
术 后 ， 重 复数 据 可 以 用 非常 简明 的 方式 表示 。 

condensation (紧缩 ) 在 不 降低 数据 的 逻辑 一 致 性 的 前 提 下 ， 减 少 管理 数据 景 的 过 程 。 
紧缩 与 压缩 有 本 质 上 的 区 别 。 

contention ( 争 用 ) 当 有 两 个 或 多 个 程序 试图 同时 访问 相同 的 数据 时 出 现 的 情况 。 

continuous time span data (连续 时 间 跨 度数 据 ) 在 某 一 时 间 跨 度 上 经 过 组 织 的 数据 ， 
使 得 数据 的 连续 性 定义 通过 一 条 或 多 条 记录 来 表示 。 

convenience field (便利 域 ) 为 了 分 析 者 分 析 的 方便 而 创建 的 一 个 域 。 其 中 包括 从 非 分 
析 型 数据 源 而 来 的 细节 型 数据 元 素 。 

corporate information factory (CIF) (企业 信息 工厂 ) 围绕 数据 仓库 的 一 种 企业 信息 架 
构 ; 一 般 包括 ODS、 数 据 仓 库 、 数 据 集 市 、DSS 应 用 、 探 查 型 仓库 、 数 据 挖掘 数据 仓库 、 备 
用 存储 等 等 。 参 见 decision-support system (DSS) 和 operational data store (ODS)。 

CPU (中 央 处 理 器 ) 。 

CPU-bound (CPU 界限 ) 当 CPU 的 使 用 率 达 到 100% 时 ， 计 算 机 不 能 再 产生 更 多 输出 的 一 
种 处 理 状态 。 当 达到 CPU 界 限时 ， 存 储 处 理 部 件 使 用 率 通 常 不 会 达到 100%。 与 CPU 界 限 相 比 ， 
在 现 有 的 DBMS 中 ， 更 有 可 能 出 现 I0 界 限 。 参 见 database management system (DBMS)。 
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CRM (客户 关系 管理 )， 一 种 流行 的 DSS 应 用 ， 用 于 对 客户 /企业 关系 的 流 线 性 管理 。 参 
见 decision-support system (DSS)。 

cross-media storage manager (CMSM ) ( 跨 介 质 存储 管理 器 ) 用 于 在 磁盘 存储 器 与 备 
用 存储 器 之 间 移 动 数 据 的 一 种 软件 。 

current-value data (当前 值 数 据 ) 与 随时 间 变 化 的 数据 相反 ， 准 确 性 在 执行 时 有 效 的 
数据 。 

DASD 参见 direct access storage device。 

data (数据 ) 在 存储 介质 上 的 事实 、 概 念 或 指令 的 记录 ， 用 于 通信 、 检 索 及 以 自动 的 方 
式 进行 的 处 理 ， 表 示 为 人 可 以 理解 的 信息 。 

data administrator (DA) (数据 管理 员 ) 负责 数据 管理 软件 的 说 明 、 获 取 和 维护 ， 并 负责 
文件 和 数据 库 的 设计 、 验 证 和 安全 性 的 个 人 或 组 织 ， 数 据 模型 和 数据 字典 通常 是 由 DA 负责 的 。 

database (数据 库 ) 按照 一 种 模式 存储 (通常 是 受到 控制 的 ， 限 制 元 余 的 ) 相互 关联 的 
数据 的 集合 。 一 个 数据 库 能 够 服务 于 一 个 或 多 个 应 用 。 

database administrator (DBA) (数据 库 管理 员 ) 负责 日 常 监控 和 管理 数据 库 的 组 织 职 
能 机 构 。DBA 的 职能 比 DA 的 职能 更 紧密 地 与 数据 库 的 物理 设计 相关 。 参 见 data administrator 
(DA)。 

database key (数据 库 键 ) 数据 库 中 每 条 记录 拥有 的 一 个 惟一 值 ， 这 种 值 经 常 被 索引 ， 
虽然 系统 可 以 对 它 进行 随机 或 散 列 处 理 。 

database management system (DBMS) (数据 库 管理 系统 ) 一 种 基于 计算 机 的 软件 系 
统 ， 用 于 建立 和 管理 数据 。 

data-driven development (数据 驱动 式 开发 ) 一 种 开发 方式 ， 核 心 是 通过 数据 模型 识别 
数据 的 共性 ， 建 立 一 个 比 直 接应 用 程序 的 范围 更 广 的 程序 ， 数 据 驱动 式 开发 不 同 于 传统 的 面 
向 应 用 的 开发 方式 。 

data element (数据 元 )(1) 实体 的 一 个 属性 (2) 具有 惟一 命名 和 定义 严格 的 数据 类 
别 ， 册 数据 项 组 成 并 包括 在 一 个 活动 记录 中 。 

data item set (DIS) (数据 项 集 ) 一 组 数据 项 ， 每 个 数据 项 直接 与 数据 项 所 属 数据 组 的 
关键 字 相 关联 。 中 间 层 数据 模型 中 存在 数据 项 集 。 

data mart (数据 集 市 ) 部 门 级 的 数据 结构 ， 其 中 的 数据 源 自 数据 仓库 ， 数 据 集 市 -- 般 会 
根据 部 门 的 信息 需求 进行 非 规范 化 处 理 。 

data mining (数据 挖掘 ) 分 析 大 规模 数据 以 寻找 未 被 发 现 的 商业 模式 的 过 程 。 

data model (数据 模型 ) (1) 逻辑 数据 结构 ， 包 括 由 DBMS 提 供 的 为 有 效 进行 数据 库 处 
理 而 定义 的 操作 和 约束 ; (2) 用 于 表示 数据 的 系统 (例如 ，ERD 或 关系 型 模型 )。 参 见 entity- 
relationship diagram(ERD) 

data structure (数据 结构 ) 用 于 支持 特定 数据 处 理 功能 的 数据 元 素 间 的 逻辑 关系 〈 树 、 
列表 和 表 ) 。 

data velocity (数据 速率 ) 数据 传输 并 载 入 一 个 体系 结构 中 的 速率 。 

data warehouse (数据 仓库 ) 用 来 支持 DSS 功能 的 、 集 成 的 、 面 向 主题 的 数据 库 的 集合 ， 
每 个 数据 单元 与 某 个 时 刻 有 关 。 数 据 仓库 包括 细节 层 数据 和 轻 放 汇总 数据 。 参 见 decision- 
Support System (DSS)。 

data warehouse monitor (数据 仓库 监控 器 ) 用 来 监控 数据 仓库 当中 的 数据 使 用 情况 。 
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decision-support system (DSS) (决策 支持 系统 ) 用 于 支持 管理 决策 的 系统 。 通 常 ， 
DSS 包 括 以 启发 式 的 方式 对 大 量 的 数据 单元 进行 的 分 析 。 通 常 ，DSS 处 理 不 涉及 数据 更 新 。 

decompaction (解压 缩 ) 压缩 的 相反 过 程 ; 一 旦 数据 以 压缩 方式 存 入 以后， 只 有 通过 解 
压缩 才能 使 用 。 

delta list (差别 表 ) 数据 从 一 个 文件 到 另 一 个 文件 的 差别 列表 。 

denormalization ( 反 向 规范 化 ) 将 规范 化 数据 存储 在 物理 介质 上 以 优化 系统 性 能 的 技术 。 

derived data (导出 数据 ) 从 企业 的 一 个 主要 主题 的 两 个 或 多 个 数据 源 导 出 的 数据 。 

derived data element (导出 数据 元 素 ) 在 需要 的 时 候 可 以 生成 的 、 不 需要 存储 的 数据 元 
素 〈 如 年 龄 、 当 前 日 期 、 出 生日 期 )。 

design review (设计 复查 ) 在 编码 之 前 对 系统 的 所 有 方面 进行 的 公开 审查 的 质量 保证 过 程 。 

dimension table ( 维 表 ) 存放 与 事实 表 相 关 的 外 部 信息 数据 的 多 维 表 。 

direct access (直接 存 取 ) 直接 通过 引用 地 址 在 卷 上 进行 数据 检索 和 数据 存储 的 方法 。 
就 如 常见 的 在 线 使 用 数据 时 所 要 求 的 那样 ， 这 种 机 制 直接 存 取 所 涉及 的 数据 。 这 种 访问 方式 
也 可 以 称 为 随机 存 取 或 散 列 存 取 方 式 。 

direct access Storage device (DASD) (直接 存 取 存储 设备 ) 一 种 数据 存储 设备 ， 对 数 
据 存 取 直接 进行 ， 而 不 需 像 访问 磁带 设备 一 样 需要 处 理 顺序 文件 。 磁 盘 就 是 一 种 直接 存 取 存 
储 设 备 。 

dormant data (不 活跃 数据 ) 使 用 频率 非常 低 的 数据 。 

download (下 载 ) 在 一 个 数据 库 中 找到 一 定 的 数据 ， 并 将 数据 转 储 到 另 一 个 数据 库 的 
过 程 。 

drill-down analysis (向 下 钻 取 分 析 ) 一 种 分 析 方式 ， 首 先 从 一 个 汇总 数值 出 发 ， 查 看 组 
成 该 数据 的 各 个 数据 成 员 。 

DSS application (DSS 应 用 ) 一 种 将 数据 仓库 作为 数据 基础 的 应 用 。 

dual database (双重 数据 库 机 制 ) 将 高 性 能 的 、 面 向 事务 处 理 的 数据 与 决策 支持 数据 分 
开 存 放 的 -- 种 数据 库 设 计 机 制 。 

dual database management systems (双重 数据 库 管理 系统 ) 采用 多 个 数据 库 管 理 系统 
来 控制 数据 库 环 境 的 不 同方 面 的 系统 实践 。 

dumb terminal ( 哑 终 端 ) 用 于 与 最 终 用 户 直接 交互 的 设备 ， 所 有 的 处 理 都 是 在 远程 计算 
机 上 完成 的 。 旺 终端 只 能 用 于 收集 和 显示 数据 。 

eBusiness (电子 商务 ) 通过 Web 交 互 进行 的 商务 。 

encoding (编码 ) 将 数据 值 的 物理 表示 缩短 或 简写 的 方法 (如 ，male =“M”, female 
= “F”), 

enterprise resource planning (ERP) (企业 资源 规划 ) 用 于 处 理事 务 的 应 用 软件 。 

entity (实体 ) 最 高 抽象 层 上 数据 建 模 人 员 所 关心 的 人 、 地 点 或 事物 。 

entity-relationship diagram (ERD ) (实体 关系 图 ) 一 种 高 层 数据 模型 ; 这 种 模型 以 概略 
的 方式 在 集成 范围 内 表示 所 有 的 实体 以 及 实体 之 间 的 直接 关系 。 

event (事件 ) 重要 活动 出 现 的 一 个 信号 ， 事 件 是 由 信息 系统 记录 的 。 

Executive Information Systems (EIS) (主管 信息 系统 ) 为 高 级 管理 人 员 设 计 的 系统 ， 
主要 用 于 同 下 钻 取 分 析 和 趋势 分 析 。 

explorer (探险 者 ) 一 个 使 用 者 ， 他 在 最 终结 果 出 来 以 前 对 自己 所 需要 的 东西 并 不 了 解 。 
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extract/load/transformation (ELT) (抽取 /装载 /转换 ) 将 历史 应 用 中 的 数据 提取 出 来 ， 
并 集成 到 数据 仓库 中 的 过 程 。 

exploration warehouse (探查 型 数据 仓库 ) 为 了 用 于 搜索 各 种 商业 模式 的 统计 分 析 处 理 
功能 而 特别 设计 的 结构 。 

external data (外 部 数据 ) (1) 企业 中 非 操作 型 系统 中 的 数据 ; (2) 处 在 中 央 处 理 系统 
之 外 的 数据 。 

extract (抽取 ) 从 一 个 环境 中 选择 数据 ， 并 将 其 传送 到 另 一 个 环境 中 的 过 程 。 

extract/transform/load(ETL) (抽取 /转换 / 载 入 ) 寻找 数据 ， 整 合 数据 ， 并 将 它们 装 入 数 
据 仓库 的 过 程 。 

fact table (事实 表 ) 星 形 连 接 模型 下 的 中 心 数据 表 ， 其 中 存放 着 许多 数据 。 参 见 star join。 

Farmer (农民 ) 一 个 使 用 者 ， 他 在 分 析 开 始 时 就 知道 自己 需要 什么 。 

flat file (平面 文件 ) 不 包含 数据 聚集 、 嵌 套 重复 数据 项 或 数据 项 分 组 的 数据 记录 和 集 。 

foreign key (外 键 ) 一 种 属性 ， 它 不 是 一 个 关系 系统 的 主键 ， 但 这 个 键 的 值 是 另 一 个 关 
系 的 主键 的 键 值 。 

fourth-generation language (第 四 代 语 言 ) 允许 最 终 用 户 随意 地 访问 数据 的 语言 或 技术 。 

functional decomposition (功能 分 解 ) 将 一 组 操作 划分 成 层次 式 功 能 (活动 ) 操作 ， 这 
些 活动 构成 了 各 种 过 程 的 基础 。 | 

global data warehouse (全 局 数据 仓库 ) 能 满足 大 型 企业 的 总 部 需求 的 一 种 数据 仓库 。 

government information factory (GIF， 政 府 信息 工厂 ) 为 政府 信息 系统 建立 的 一 个 体 
系 结构 。 

granularity (粒度 ) 数据 单元 的 细节 程度 的 描述 。 数 据 越 细 ， 则 粒度 级 越 低 。 数 据 越 综 
合 ， 则 粒度 级 越 高 。 

Granularity Manager (粒度 管理 器 ) 当 Web 数 据 流向 数据 仓库 时 ， 用 于 编辑 和 过 滤 Web 
数据 的 软件 或 过 程 。 从 Web 环 境 流 向 数据 仓库 环境 中 的 数据 通常 是 存储 在 Web 日 志 上 的 点 击 流 
数据 。 

heuristic (启发 式 ) 一 种 分 析 模 式 ， 分 析 的 下 一 步 是 由 当前 分 析 步 骤 的 结果 决定 的 。 应 
用 于 决策 支持 处 理 过 程 。 

identifier (标识 符 ) 数据 库 的 一 个 属性 ， 用 来 对 比 ， 从 其 他 行 里 挑 出 相应 的 数据 ， 

image copy (映像 复制 ) 为 进行 数据 备份 ， 将 数据 库 物 理 地 复制 到 另 一 种 介质 上 的 过 程 。 

independently evolving distributed data warehouse (独立 演变 的 分 布 式 数据 仓库 ) 是 
一 种 根据 一 些 本 地 需求 演变 的 数据 仓库 。 

index (索引 ) 数据 库 系统 维护 的 一 部 分 存储 结构 ， 当 索引 键 项 已 知 的 时 候 ， 使 用 索引 可 
以 有 效 地 存 取 记录 中 的 数据 。 

information (信息 ) 人 们 为 了 求解 问题 或 作出 决策 而 吸收 和 评价 的 数据 。 

integrity (完整 性 ) 数据 库 的 一 种 性 质 ， 用 于 确保 数据 库 中 包含 的 数据 尽 可 能 地 准确 和 
-一 致 。 

interactive (交互 式 ) 将 在 线 事务 处 理 (OLTP) 的 特征 和 批 处 理 的 一 些 特征 结合 起 来 的 
一 种 处 理 模式 。 最 终 用 户 与 他 们 独占 的 数据 进行 交互 。 另 外 ， 最 终 用 户 可 以 启动 处 理 数 据 的 
后 台 进 程 。 参 见 在 线 事务 处 理 (OLTIP ) 。 

Internet (因特网 ) 在 世界 范围 内 访问 数据 和 Web 地 址 的 用 户 构 成 的 网 络 。 
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“is a type of”( 定义 类 型 ) 在 概念 数据 库 设 计 (如 ，cocker spaniel 定 义 一 种 狗 类 型 ) 
时 ， 用 于 对 数据 进行 抽象 的 分 析 型 工具 。 

iterative analysis ( 友 代 式 分 析 ) 下 一 步 处 理 依赖 于 当前 执行 步 又 所 获得 的 结果 的 处 理 模 
式 ; 启发 式 处 理 。 

joint application design (JAD) (联合 应 用 设计 组 ) 建立 和 细 化 应 用 系统 需求 ， 通 常 是 
最 终 用 户 构 成 的 组 织 。 

judgment sample (判断 样本 ) 一 个 数据 样本 ， 给 定 一 个 或 多 个 参数 ， 可 以 根据 这 个 样 
本 ， 接 受 或 拒绝 处 理 数 据 。 

key ( 键 码 ) 用 于 识别 或 定位 记录 实例 (或 其 他 相近 的 数据 组 ) 的 一 个 数据 项 或 数据 项 的 
组 合 。 
key primary (主键 ) 数据 库 中 用 于 惟一 地 识别 一 条 记录 的 惟一 属性 。 
key secondary ( 辅 键 ) 在 数据 库 中 用 于 识别 一 类 记录 的 非 惟一 属性 。 
living sample ( 活 样本 ) 一 个 代表 性 的 数据 库 ， 它 通常 代替 大 型 数据 库 用 于 启发 式 的 、 
统计 的 、 分 析 型 处 理 。 从 超大 型 数据 库 定期 地 、 有 选择 地 提取 数据 ， 通 过 这 种 方式 产生 的 活 
样本 数据 库 用 于 代表 超大 型 数据 库 在 某 一 时 刻 的 一 个 断面 。 

load (装载 ) 将 数据 值 插入 空 数据 库 中 。 

local data warehouse (局 部 数据 仓库 ) 保存 区 域 性 局 部 数据 的 一 种 数据 仓库 ， 用 于 支持 
全 局 数据 库 。 

lock manager ( 锁 管 理 器 ) 是 一 种 技术 的 一 部 分 ， 保 证 某 一 时 刻 数 据 修改 的 完整 性 。 

iog (日 志 ) 活动 日 志 。 

logging ( 记 日 志 ) 自动 地 记录 与 数据 访问 、 数 据 更 新 等 有 关 的 数据 的 操作 。 

loss of identity (特征 丢失 ) 当 数 据 从 外 部 数据 源 装 和 时， 抛弃 外 部 数据 源 的 特征 〈《 微 处 
理 器 数据 的 丢失 就 是 一 种 常见 的 情况 )。 

magnetic tape (磁带 ) (1) 与 顺序 处 理 紧密 相关 的 存储 介质 ; (2) 用 于 存储 和 检索 磁 
影像 的 大 容量 磁性 介质 。 

master file ( 主 文件 ) 为 给 定数 据 集 (范围 通常 由 应 用 限定 ) 保存 记录 系统 的 文件 。 参 见 
System of record 。 

metadata (元 数据 ) (1) 关于 数据 的 数据 ; (2) 有 关 数 据 的 结构 、 内 容 、 关 键 字 、 索 引 
等 信息 的 描述 。 

microprocessor ( 微 处 理 器 ) 满足 单个 用 户 需要 的 小 型 处 理 器 。 

migration (数据 迁移 ) 将 经 常 使 用 的 数据 项 移 到 能 较 快 地 访问 的 存储 区 域 ， 以 及 将 不 常 
使 用 的 数据 项 移 到 访问 速度 较 慢 的 区 域 的 过 程 。 

million instructions per second (mips， 百 万 指令 每 秒 ) 小 型 机 和 大 型 机 的 处 理 器 速度 
的 标准 度量 单位 。 

miner (矿工 ) 一 个 使 用 者 ， 用 统计 技术 分 析 数 据 。 

multidimensional processing (多 维 处 理 ) 一 种 基于 星 形 结构 化 数据 的 数据 集 市 数据 处 
理 方 法 。 参 见 星 形 连 接 (star join )。 

near-line storage ( 近 线 数据 存储 器 ) 未 存储 在 磁盘 上 ， 但 是 仍然 可 以 存 取 的 数据 ; 用 于 
存储 大 容量 的 活跃 程度 相对 较 低 的 数据 的 设备 。 

online analytical processing (OLAP) (在 线 分 析 处 理 ) 在 数据 集 市 环境 中 进行 的 部 门 
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级 数据 处 理 。 

online storage (在 线 存 储 器 ) 可 以 直接 访问 的 存储 设备 和 存储 介质 。 

online transaction processing (OLTP) (在 线 事务 处 理 ) 高 性 能 事务 处 理 环境 。 

operational data (操作 型 数据 ) 用 于 支持 企业 日 常 处 理 的 数据 。 

operational data store (ODS) (操作 型 数据 存储 ) 用 于 支持 操作 型 事务 处 理 和 分 析 型 处 
理 的 一 种 混合 结构 。 

operations 负责 计算 机 运行 的 部 门 。 

optical disk (光盘 ) 一 种 使 用 激光 的 存储 介质 ， 与 磁性 设备 相对 。 光 盘 通 常 是 只 写 的 ， 
单位 字 节 的 费用 比 磁性 存储 设备 要 便宜 ， 并 且 可 靠 性 高 。 

overflow (1) (溢出 ) 记录 或 数据 段 因为 其 地 址 已 被 占用 而 存储 到 其 他 位 置 的 情况 ; (2) 
(溢出 区 ) DASD 的 一 种 区 域 ， 当 溢出 情况 发 生 时 ， 数 据 被 送 往 这 个 区 域 。 参 见 直 接 随机 存储 
设备 (DASD )。 

ownership (所 有 权 ) 更 新 操作 型 数据 的 责任 。 

page (页 ) (1) DASD 设 备 的 基本 数据 单位 ; (2) 主 存 的 基本 存储 单位 。 

parameter (参数 ) 作为 数据 限定 条 件 的 基本 数据 值 ， 通 常用 于 数据 搜索 或 模型 控制 。 

partition (分 区 ) 将 数据 划分 成 不 同 物理 单元 的 一 种 数据 划分 技术 。 分 区 可 以 在 应 用 层 或 
系统 层 进行 。 

populate ( 载 入 ) 将 数据 值 放 入 到 空 数据 库 中 的 过 程 ， 参 见 load (装载 )。 

primary key (主键 ) 一 种 属性 ， 其 中 包含 的 值 能 惟一 地 确定 具有 该 关键 字 的 记录 。 

primitive data ( 原始 数据 ) 只 在 企业 的 主要 主题 域 中 出 现 ， 并 且 只 出 现 一 次 的 数据 。 

processor (处 理 器 ) 计算 机 程序 运行 所 需 的 核心 硬件 。 一 般 来 说 ， 处 理 器 分 成 三 种 : 大 
型 机 、 小 型 机 和 微机 。 

processor Cycles (处 理 器 周期 ) 驱动 计算 机 (如 启动 IO、 执 行 逻 辑 运 算 、 移 动 数据 、 
执行 算术 运算 ) 的 硬件 内 部 周期 。 

production environment (生产 环境 ) 运行 操作 型 、 高 性 能 处 理 的 坏 境 。 

punched cards (穿孔 卡 ) 存储 数据 和 输入 的 早期 存储 介质 。 现 在 穿孔 卡 已 经 很 少见 了 。 

query language (查询 语言 ) 能 够 让 最 终 用 户 与 DBMS 直 接 交互 的 语言 ， 用 以 检索 和 修 
改 DBMS 中 存储 的 数据 。 参 见 数据 库 管 理 系 统 (DBMS )。 

record (记录 ) 通过 各 个 数据 值 与 公共 主键 的 关系 结合 在 一 起 的 多 个 数据 值 的 集合 体 。 

record-at-a-time processing (每 次 一 个 记录 的 处 理 方法 ) 一 次 一 个 记录 、 一 次 一 个 元 组 
( 行 ) 的 数据 存 取 方法 。 

recovery (恢复 ) 将 数据 库 复原 到 初始 位 置 或 状态 的 操作 ， 这 种 操作 一 般 在 物理 介质 发 
生 较 大 的 破坏 之 后 进行 。 

redundancy (元 余 ) 数据 出 现 超 过 一 次 的 存储 机 制 。 当 数据 可 以 修改 时 ， 完 余 会 带 来 严 
重 的 问题 。 当 数据 不 能 被 修改 时 ， 宛 余 则 常常 是 一 种 有 价值 的 、 必 要 的 设计 技术 。 

referential integrity (参照 完整 性 ) 确保 预定 义 关系 有 效 性 的 一 种 DBMS 机 制 。 参 见 数据 
库 管理 系统 (DBMS )。 

reorganization (数据 重组 织 ) 将 组 织 状 态 很 差 的 数据 印 载 ， 再 将 经 过 良好 组 织 的 数据 重 
新 装载 的 过 程 。 在 有 些 DBMS 系 统 中 ， 数 据 重 组 织 用 于 重新 规划 数据 的 结构 。 重 组 织 经 常 称 
为 “reorg” 或 “卸载 /再 装 人 ”过程 。 
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repeating groups (重复 组 ) 在 给 定 的 记录 实例 范围 内 可 能 会 重复 出 现 多 次 的 数据 集合 。 

rolling summary (轮转 汇总 ) 一 种 存储 档案 数据 的 形式 ， 将 最 近 的 数据 以 最 细节 的 方式 
存放 ， 而 将 较 老 的 数据 以 适当 程度 的 汇总 形式 存放 。 

Sarbanes Oxley 美国 通过 的 一 项 法 律 ， 用 来 保证 上 市 公司 的 信息 真实 性 。 

scope of integration (集成 范围 ) 对 正在 建 模 中 的 系统 的 正式 的 边界 定义 。 

SDLC (系统 开发 周期 ) 参见 system development life cycle(SDLC)。 

self-organizing map (SOM) ( 自 组 织 图 ) 一 种 方法 ， 用 来 组 织 和 显示 文本 信息 ， 相 应 的 
根据 是 文本 出 现 频率 和 一 个 文件 的 文本 和 另 一 个 文件 中 文本 的 关系 。 

sequential file (顺序 文件 ) 记录 根据 一 个 或 多 个 键 码 字 段 的 值 进行 排序 的 文件 。 文 件 中 
记录 可 以 从 第 一 条 记录 开始 ， 按 排列 顺序 逐条 处 理 ， 一 直到 文件 的 最 后 一 条 记录 。 

serial file ( 串 行文 件 ) 一 种 顺序 文件 ， 文 件 中 的 记录 在 物理 上 按 顺 序 相继 排列 。 

set-at-a-time processing (成 组 数据 处 理 ) 成 组 数据 的 访问 ， 组 的 每 个 成 员 满足 一 个 选 
择 的 标准 。 

snapshot (快照 ) 一 种 数据 库 转 储 ， 或 者 在 一 些 时 间 点 上 将 数据 存储 在 数据 库 以 外 。 

snowflake structure (雪花 结构 ) 将 两 个 或 多 个 星 形 连接 再 进行 连接 得 到 的 结果 。 

solutions database (解决 方案 数据 库 ) DSS 环境 下 的 一 个 组 件 ， 其 中 存放 了 以 前 的 决策 
结果 ; 在 进行 当前 的 决策 时 ， 解 决 方案 数据 库 可 用 来 辅助 确定 一 个 合适 的 决策 过 程 。 

spiral development (螺旋 式 开 发 ) 迄 代 式 开发 ， 与 瀑布 式 开发 相对 应 的 一 种 开发 方式 。 

staging area (缓冲 区 ) 传输 数据 的 存放 处 ， 通 常情 况 下 ， 这 些 数据 从 历史 数据 环境 中 抽 
取出 来 ， 在 进入 ETL 处 理 层 以 前 ， 需 要 在 缓冲 区 中 停留 。 参见 抽取 /转换 /装载 (extract/ 
transform/load-ETL ) 。 

star join ( 星 形 连接 ) 一 种 非 规范 化 的 数据 结构 ， 用 于 优化 数据 存 取 ; 星 形 连 接 是 多 维 数 
据 集 市 设计 的 基础 。 

storage hierarchy (存储 器 层次 结构 ) 存储 单元 连接 起 来 形成 一 个 存储 子 系统 ， 在 这 个 
存储 子 系统 中 ， 一 些 存储 单元 速度 快 ， 但 是 容量 不 大 ， 而 且 价 格 很 高 ， 另 外 的 一 些 存 储 单 元 
容量 大 ， 但 是 速度 较 慢 ， 价 格 较 低 。 

structured data (结构 化 数据 ) 一 种 数据 ， 其 内 容 根 据 可 预知 的 形式 而 组 织 。 

subject database (主题 数据 库 ) 围绕 企业 的 一 个 主要 主题 进行 组 织 的 数据 库 。 传 统 的 主 
题 数 据 库 一 般 针对 顾客 、 事 务 、 生 产 、 材 料 和 供应 商 。 

system development life cycle (SDLC) (系统 开发 生命 周期 ) 一 种 典型 的 操作 型 系统 开 
发 周期 通常 包括 需求 汇总 、 人 分析、 设计、 编程、 测试 、 整 合 以 及 应 用 。 

system log (系统 日 志 ) 对 相应 系统 事件 的 审计 追踪 (如 ， 事 务 目录 ， 数 据 库 变 化 等 ) 

system of record (记录 系统 ) 操作 型 数据 确定 的 、 单 一 的 数据 源 。 如 果 在 一 条 数据 库 记 
录 中 的 数据 元 素 ABC 的 值 为 25， 但 在 记录 系统 中 的 值 为 415。 按照 定义 ， 前 一 个 值 是 不 正确 的 ， 
并 且 必 须 改 成 一 致 。 记 录 系 统 对 管理 数据 的 元 余 是 很 有 用 的 。 

table ( 表 ) 由 一 组 具有 标题 的 列 和 一 组 行 ( 即 元 组 ) 组 成 的 关系 。 

technologically distributed data warehouse (技术 上 分 布 的 数据 仓库 ) 一 种 数据 仓库 ,其 
分 布 由 技术 管理 。 

theme (主题 ) 一 个 文档 的 基本 信息 。 

time stamping (时 间 玲 ) 将 每 条 记录 标 上 对 应 时 刻 的 操作 ， 这 个 时 刻 通 常 是 记录 创建 时 
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间或 者 是 记录 从 一 个 环境 传递 到 另 一 个 环境 中 的 时 间 。 

time-variant data (时 变数 据 ) 准确 度 与 某 时 刻 有 关 的 数据 ， 这 种 数据 的 三 种 形式 是 : 连 
续 时 间 区 间 数 据 、 离 散 事件 数据 和 周期 性 离散 数据 。 参 见 currenat-value data。 

tourist (旅行 者 ) 一 个 使 用 者 ， 清 楚 自 己 到 哪里 找 大 量 的 数据 。 

transition data (临界 数据 ) 既 具 有 原始 特征 又 具有 导出 特征 的 数据 ; 这 种 数据 通常 对 商业 
运作 很 敏感 。 典 型 的 临界 数据 有 银行 的 利率 、 保 险 公 司 的 保险 率 、 厂 商 / 销 售 商 的 零售 率 等 等 。 

transparency (透明 度 ) 用 来 综合 表明 一 个 结构 的 性 质 。 

trend analysis (趋势 分 析 ) 在 时 间 序 列 上 观察 同类 数据 的 过 程 。 参 见 主管 信息 系统 (EIS )。 

true archival data (真实 存档 数据 ) 原子 数据 库 中 的 最 低 细节 层 数据 ， 通 常 存储 在 大 容 
量 存储 介质 上 。 

unstructured data ( 非 结构 化 数据 ) 一 种 数据 ， 其 内 容 通常 没有 格式 (通常 是 文本 数据 )。 

update (更 新 ) 对 存储 在 数据 库 中 的 全 部 或 所 选择 出 的 项 目 、 组 或 属性 进行 修改 、 增 加 、 
删除 或 赫 换 。 

user (用 户 ) 给 信息 系统 发 出 命令 或 消息 的 人 或 过 程 。 

waterfall development (瀑布 式 开发 ) 传统 的 开发 方法 ,在 一 种 类 型 的 所 有 开发 工作 结 
束 以 后 ， 下 一 个 开发 阶段 才能 够 开始 。 如 典型 的 SDLC 或 结构 化 开发 方法 。 参 见 系 统 开发 生命 
周期 (SDLC ) 。 

Web ( 万维网 ) 因特网 用 户 所 形成 的 网 络 。 

Web log ( 万维网 日 志 ) 网 站 上 记录 详细 点 击 流 数 据 的 地 方 。 

Zachman framework (Zachman 框架 ) 由 John Zachman 开 发 的 一 个 框架 ， 用 来 进行 信息 
设计 工作 。 
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白皮书 


注 : 关于 白皮书 的 更 多 信息 请 参考 www.inmoncif.com 站 点 。 

“Accessing Data Warehouse Data from the Operational Environment.” (从 操作 型 环境 中 
访问 数据 仓库 数据 ，) 大 多 数 数据 流 是 从 操作 型 环境 流向 数据 仓库 环境 的 ， 但 是 并 非 都 是 如 
此 。 此 技术 专题 讨论 数据 的 “回流 ”问题 。 

“Building the Data Mart or the Data Warehouse First?”( 首先 建造 数据 集 市 还 是 建造 数据 
仓库 ? ) 尽管 数据 集 市 与 数据 仓库 相伴 ， 但 是 一 些 数据 集 市 的 供应 商 鼓 励 人 们 不 建造 数据 仓 
库 而 直接 建造 数据 集 市 。 这 个 技术 专题 强调 与 这 方面 的 重要 设计 决策 有 关 的 问题 。 

“Capacity Planning for the Data Warehouse.”( 数 据 仓库 的 容量 规划 。 ) 此 技术 专题 讨论 数 
据 仓库 环境 的 容量 规划 问题 ， 以 及 磁盘 存储 空间 和 处 理 器 资源 问题 。 

“Changed Data Capture.”( 捕获 修改 过 的 数据 。 ) 重复 扫描 操作 型 环境 以 刷新 数据 仓库 所 
需要 的 资源 是 相当 多 的 ， 此 专题 简单 地 介绍 了 完成 这 些 工作 的 另 一 种 方法 。 

“Charge Back in the Data Warehouse DSS Environment.”( 数 据 仓 库 决 策 支 持 环 境 中 的 负 
载 支持 管理 。) 负载 支持 管理 (Charge Back) 是 使 最 终 用 户 负 责 其 所 耗资 源 的 一 种 非常 有 用 
的 方式 。 此 技术 专题 介绍 了 这 方面 的 问题 。 

“Client/Server and Data Warehouse.”( 客户 机 /服务 器 和 数据 仓库 。) 客户 机 /服务 器 处 理 可 
以 用 于 支持 数据 仓库 处 理 。 此 技术 专题 讨论 体系 结构 和 设计 问题 。 

“Creating the Data Warehouse Data Model from the Corporate Data Model.”( 从 企业 数据 模 
型 建立 数据 仓库 数据 模型 。 ) 本 文 给 出 从 企业 数据 模型 建立 数据 仓库 模型 所 需要 采取 的 步骤 。 

“Data Mining: An Architecture.”( 数 据 挖 气 : 一 种 系统 结构 ) 使 用 数据 仓库 是 一 种 艺术 。 
此 技术 专题 叙述 数据 仓库 的 基础 系统 结构 和 在 所 能 使 用 的 数据 仓库 环境 中 的 高 级 使 用 方式 。 

“Data Mining: Exploring the Data.”( 数据 控 据 : 探索 数据 ) 一 旦 数据 收集 与 组 织 起 来 ， 
使 用 它们 的 体系 结构 已 经 建 好 ， 剩 下 的 任务 就 是 使 用 这 些 数据 。 此 技术 专题 叙述 体系 结构 建 
造 好 后 数据 如 何 挖 据 。 

“Data Stratification in the Data Warehouse.”( 数 据 仓库 中 的 数据 分 层 ) 你 是 如 何 告诉 某 人 
在 1 千 兆 字 节 大 小 的 数据 仓库 中 是 什么 ?多 少 顾 客 ? 有 哪些 类 型 ? 年 龄 如 何 ? 住 在 什么 地 方 ? 
每 年 的 购买 能 力 是 多 少 ? 此 技术 专题 专门 强调 为 创建 一 个 “目录 ” 库 所 进行 的 数据 分 层 技 术 ， 
目录 库 用 来 描述 数据 仓库 中 的 实际 数据 内 容 。 

“Data Warehouse Administration.”( 数据 仓库 管理 ) 当 出 现 决 策 支持 系统 和 数据 仓库 时 ， 
需要 管理 这 些 环境 。 出 现 了 一 种 新 的 组 织 功能 : 数据 仓库 管理 。 此 技术 专题 专门 讨论 数据 仓 
库 管 理 和 其 他 重要 的 数据 管理 问题 。 

“Data Warehouse Administration in the Organization.”( 在 组 织 机 构 中 的 数据 仓库 管理 ) 一 
旦 认识 到 需要 数据 仓库 管理 ， 就 存在 这 样 一 个 问题 ， 在 该 组 织 机 构 中 数据 仓库 管理 员 (PWA) 
的 地 位 是 什么 ”此 技术 专题 强调 组 织 机 构 中 数据 仓库 管理 员 的 地 位 有 关 的 问题 。 

“The Data Warehouse Budget.”( 数 据 仓库 预算 ) 此 技术 专题 讨论 不 同 的 花费 模式 以 及 费 
用 花费 率 ， 包 括 一 些 如 何 尽量 减少 花费 的 建议 。 
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“Data Warehouse and Cost Justification.”( 数 据 仓 库 和 费用 代价 分 析 。) 对 数据 仓库 进行 事 
前 费用 代价 分 析 是 件 困难 的 事情 ， 此 技术 专题 讨论 这 个 问题 。 

“Defining the System of Record.”( 定 义 记录 系统 ) 确定 和 定义 记录 系统 的 设计 方面 的 一 
些 考虑 。 

“EIS and Data Warehouse.”(EIS 和 数据 仓库 ) 以 历史 系统 为 基础 的 EIS 是 很 脆弱 的 ， 而 以 
数据 仓库 为 基础 的 EIS 却 是 非常 稳固 ， 本 技术 专题 对 此 有 详细 的 阐述 。 

“Explaining Metadata to the End User.”( 对 最 终 用 户 解释 元 数据 ) 当 一 个 用 户 磁 到 元 数据 
时 ， 最 原始 反应 通常 是 “元 数据 实际 究竟 是 什么 东西 ， 我 为 什么 还 需要 元 数据 ? ”此 技术 专 
题 以 非常 直接 的 术语 对 元 数据 进行 了 解释 。 

“Getting Started,”( 开始 ) 数据 仓库 是 以 循环 重复 方式 建立 起 来 的 。 此 技术 专题 以 详细 的 
方式 告诉 你 所 需要 采取 的 第 一 个 步骤 。 

“Information Architecture for the ‘90s: Legacy Systems，Operationai Data Stores, Data 
Warehouses.”(20 世 纪 90 年 代 的 信息 体系 结构 : 历史 系统 ， 操 作 型 数据 存储 ， 数 据 仓库 ) 描述 
了 操作 型 数据 存储 的 作用 ， 并 且 描 述 了 将 操作 型 存储 和 数据 仓库 混合 起 来 所 产生 的 体系 结构 。 

“Information Engineering and the Data Warehouse.”( 信息 工程 和 数据 仓库 ) 数据 仓库 体系 
结构 与 信息 工程 的 设计 和 模型 化 实践 是 非常 协调 的 ， 此 技术 专题 描述 了 它们 之 间 的 关系 。 

“fterative Development Using a Data Model.”( 使 用 一 种 数据 模型 的 迭代 式 开 发 ) 数据 模 
型 化 是 数据 仓库 设计 过 程 的 基本 部 分 。 此 技术 专题 解释 如 何 进行 迭代 式 开 发 ， 同 时 如 何 将 数 
据 模型 反映 到 开发 过 程 之 中 。 

“Loading the Data Warehouse.”( 导 人 数据 仓库 ) 乍 看 起 来 ， 将 数据 导 人 数据 仓库 是 一 件 
简单 的 事 ， 实 际 上 并 非 如 此 。 该 讨论 涉及 将 数据 从 操作 型 环境 导入 数据 仓库 中 的 许多 不 同 的 
考虑 方法 。 

“Managing Multiple Data Warehouse Development Efforts”( 管 理 多 数据 仓库 开发 工作 ) 
当 一 个 企业 开始 同时 建立 多 数据 仓库 时 ， 会 带 来 一 系列 新 的 设计 和 开发 问题 ， 此 技术 专题 提 
出 并 讨论 这 些 问 题 。 : 

“Managing the Refreshment Process.”( 管 理 刷 新 过 程 ) 数据 需要 定期 地 从 遗留 系统 刷新 
到 数据 仓库 。 刷 新 过 程 比 人 们 所 想象 得 复杂 的 多 。 此 技术 专题 讨论 了 数据 仓库 刷新 的 问题 。 

“Metadata in the Data Warehouse: A Statement of Vision.”( 数 据 仓 库 中 的 元 数据 ) 元 数据 
是 数据 仓库 环境 的 重要 部 分 。 元 数据 双重 冲突 作用 。 在 某 些 情形 ， 必 须 共享 元 数据 。 在 其 他 
情形 ， 元 数据 需 自 身 管 理 。 此 技术 专题 讨论 分 布 式 元 数据 结构 既 可 以 是 分 布 式 的 同时 又 可 以 
自身 管理 。 

“Monitoring Data Warehouse Activity.”( 数 据 仓 库 活 动 的 监控 ) 数据 仓库 中 的 活动 由 于 各 
种 各 样 的 原因 需要 进行 监控 。 此 技术 专题 描述 监控 技术 和 方案 ， 包 括 解释 在 数据 仓库 中 为 什 
么 需要 进行 监控 。 

“Monitoring Data Warehouse Data.”( 数据 仓库 中 数据 的 监控 ) 虽然 数据 仓库 中 的 活动 监 
控 非 常 重要 ， 数 据 本 身 的 监控 同样 也 是 非常 重要 的 。 此 技术 专题 讨论 的 问题 是 随 着 数据 仓库 
中 数据 的 增长 ， 数 据 的 质量 和 数据 的 实际 内 容 都 处 于 非常 危险 的 情形 。 

“OLAP and Data Warehouse.”(OLAP 和 数据 仓库 ) 轻 度 综合 的 数据 总 是 数据 仓库 体系 结 
构 的 主要 部 分 。 现 在 ， 这 种 结构 称 为 OLAP， 或 数据 集 市 。 此 技术 专题 讨论 OLAP 与 数据 仓库 
中 细节 数据 的 关系 。 
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“The Operational Data Store.”( 操 作 型 数据 存储 ) 数据 仓库 的 操作 型 对 应 物 是 操作 型 数据 
存储 (ODS)。 在 此 技术 专题 中 ， 对 ODS 有 详细 的 定义 和 描述 。 

“Operational and DSS Processing from a Single Database: Separating Fact and Fiction.” 
(从 单个 数据 库 进 行 操作 型 和 DSS 处 理 : 对 事实 和 假设 进行 分 离 ) 早期 的 概念 是 单个 数据 库 既 
应 作为 操作 型 处 理 的 基础 ， 又 应 服务 于 DSS 分 析 型 处 理 ， 这 个 技术 专题 探讨 了 这 些 问 题 ， 并 
且 描 述 为 什么 数据 仓库 适宜 作为 DSS 信息 处 理 的 基础 。 

“Parallel Processing in the Data Warehouse.”( 数 据 仓 库 的 并 行 处 理 ) 管理 大 量 数 据 是 数据 
体系 结构 设计 人 员 所 要 面临 的 第 一 个 而 且 是 主要 的 挑战 ， 并 行 技术 提供 了 管理 更 多 数据 的 可 
能 性 。 此 技术 专题 是 有 关 数 据 仓库 环境 中 的 并 行 处 理 技术 问题 的 。 

“Performance in the Data Warehouse Environment.”( 数 据 仓 库 环境 中 的 性 能 ) 在 DSS 数据 
仓库 环境 中 ， 性 能 问题 与 OLTP 环 境 中 一 样 重要 ， 而 且 ， 性 能 有 不 同 的 作用 。 此 技术 专题 全 都 
是 有 关 DSS 数 据 仓库 环境 中 的 性 能 问题 的 。 

“Reengineering and the Data Warehouse.”( 重建 和 数据 仓库 ) 许多 企业 没有 意识 到 重建 
和 数据 仓库 之 间 非 常 紧密 并 且 非 常 有 益 的 关系 。 此 技术 专题 指出 这 个 关系 ， 并 讨论 其 他 相关 
问题 。 

“Representing Data Relationships in the Data Warehouse: Artifacts of Data.” (在 数据 仓库 
中 表示 数据 关系 : 数据 的 人 工 关 系 ) 在 数据 仓库 中 建立 数据 关系 的 设计 问题 。 

“Security in the Data Warehouse.”( 数 据 仓 库 中 的 安全 性 ) 与 在 其 他 数据 处 理 环 境 中 不 同 ， 
在 数据 仓库 中 安全 性 设计 是 一 个 不 同 的 维 。 此 技术 专题 描述 这 个 问题 。 此 “技术 专题 报告 ” 
可 以 从 “PRISM 解 决 方案 ”得 到 。 

“Service Level Agreements in the Data Warehouse Environment,”( 数 据 仓 库 环 境 中 服务 层 
协议 ) 服务 层 协议 是 联机 操作 的 一 个 里 程 碑 ， 服 务 层 协议 适用 于 数据 仓库 ， 但 各 种 实现 方式 
有 着 很 大 不 同 。 

“Snapshots of Data in the Warehouse.”( 数 据 仓库 中 的 数据 快照 ) 描述 不 同类 型 快照 以 及 
各 种 不 同 快照 的 优 缺 点 。 

“Summary Data in the Data Warehouse/Operational Data Store.”( 数 据 仓 库 /ODS 中 的 汇总 
数据 库 ) 汇总 数据 具有 一 套 自身 独特 的 考虑 ， 如 动态 汇总 数据 和 静态 汇总 数据 。 每 种 类 型 的 
汇总 数据 都 需要 设计 与 最 终 用 户 相当 不 同 的 处 理 。 此 技术 专题 为 汇总 数据 建立 了 一 种 分 类 法 ， 
并 将 不 同类 型 的 汇总 数据 与 数据 仓库 和 ODS 联系 起 来 。 

“Telling the Difference Between Operational and DSS.”( 说 明 操作 型 和 DSS 的 区 别 ) 在 每 
个 商店 都 会 有 这 样 的 问题 : 什么 是 操作 型 ? 什么 是 DSS? 此 技术 专题 告诉 你 它们 之 间 的 区 别 。 

“Time-Dependent Data Structures.”( 依赖 于 时 间 的 数据 结构 ) 讨论 不 同类 型 的 数据 结构 
以 及 它们 的 优 缺点 。 

“Using the Generic Data Model.”( 采 用 通用 数据 模型 ) 一 些 企 业 用 数据 模型 作为 数据 仓 
库 设计 的 出 发 点 ， 有 些 企 业 不 用 。 通 用 数据 模型 作为 数据 仓库 设计 和 开发 工作 的 开始 。 

“What Is a Data Mart?”( 数 据 集 市 是 什么 ?” ) 数据 集 市 是 一 种 从 数据 仓库 自然 产生 的 。 
此 技术 专题 给 出 了 数据 集 市 的 显著 特点 。 

“What Is a Data Warehouse?”( 什么 是 数据 仓库 ? ) 此 技术 专题 定义 什么 是 数据 仓库 及 其 
结构 特征 。 这 是 一 个 基本 的 讨论 ， 适 合 于 所 有 对 数据 仓库 领域 感 兴趣 的 人 。 


